56

Хозирги кунда матнли хужжатларни кластерлаш масаласи айниқса элеcтрон ёзишмалар ва уларнинг мазмуни ва мохиятини англаш долзарб масала хисобланади. Мазкур синфдаги масалаларни ечишнинг бир қатор алгоритмлари мавжуд. Мазкур ишда матнли хужжатларни кластерлашнинг ant colony алгоритми, тўда қисмларини кластерлаш, k-means, иерархик кластерлашнинг иккита тури: агломератив, бўлишга асосланган иерархик кластерлаш борасида олиб борилган тадқиқотларнинг солиштириш таҳлили келтирилган.

  • Web Address
  • DOI
  • Date of creation in the UzSCI system 16-05-2024
  • Read count 56
  • Date of publication 31-03-2022
  • Main LanguageO'zbek
  • Pages110-114
English

Nowadays, the issue of clustering of text documents is especially important for electronic correspondence and understanding their content and essence. There are a number of algorithms for solving problems in this class. This paper presents a comparative analysis of research on the ant colony algorithm for clustering text documents, clustering of gang parts, k-means, two types of hierarchical clustering: agglomerative, division-based hierarchical clustering.

Русский

В настоящее время вопрос кластеризации текстовых документов особенно актуален для электронной переписки и понимания их содержания и сути. Существует ряд алгоритмов решения задач этого класса. В данной работе представлен сравнительный анализ исследований алгоритма муравьиной колонии для кластеризации текстовых документов, кластеризации групповых частей, k-средних, двух типов иерархической кластеризации: агломеративной, иерархической кластеризации на основе деления.

Ўзбек

Хозирги кунда матнли хужжатларни кластерлаш масаласи айниқса элеcтрон ёзишмалар ва уларнинг мазмуни ва мохиятини англаш долзарб масала хисобланади. Мазкур синфдаги масалаларни ечишнинг бир қатор алгоритмлари мавжуд. Мазкур ишда матнли хужжатларни кластерлашнинг ant colony алгоритми, тўда қисмларини кластерлаш, k-means, иерархик кластерлашнинг иккита тури: агломератив, бўлишга асосланган иерархик кластерлаш борасида олиб борилган тадқиқотларнинг солиштириш таҳлили келтирилган.

Name of reference
1 1. Y. Zhou, H. Cheng, J. X. Yu. Graph Clustering based on Structural/Attribute Similarities, VLDB Conference, 2009.
2 2. Laith Abualigah, Amir H. Gandomi, Mohamed Abd Elaziz, Abdelazim G. Hussien, Ahmad M. Khasawneh, Mohammad Alshinwan and Essam H. “Nature-Inspired Optimization Algorithms for Text Document Clustering—A Comprehensive Analysis” Houssein Algorithms 2020, 13, 345; doi:10.3390/a13120345
3 3. Aytug Onan, Hasan Bulut, Serdar Korukoglu “An improved ant algorithm with LDAbased representation for text document clustering” Journal of Information Science 2017, Vol. 43(2) 275–292 The Author(s) 2016 Reprints and permissions: sagepub.co.uk/journalsPermissions.nav DOI: 10.1177/0165551516638784 journals.sagepub.com/home/jis
4 4. С.Г. Баглей, А.В. Антонов, В.С. Мешков, А.В. Суханов Корпорация “Галактика” 38 “КЛАСТЕРИЗАЦИЯ ДОКУМЕНТОВ С ИСПОЛЬЗОВАНИЕМ МЕТАИНФОРМАЦИИ DOCUMENT CLUSTERING USING METADATA” Труды международной конференции «Диалог 2006», Москва
5 5. Sumit Mayani, Saket Swarndeep, A Novel “Approach of Text Document Clustering by using Clustering Techniques”, International Research Journal of Engineering and Technology (IRJET) e-ISSN: 2395-0056 Volume: 07 Issue: 06 | June 2020 www.irjet.net p-ISSN: 2395-0072
6 6. Selvaraj, Choi, E. Swarm, “Intelligence Algorithms in Text Document Clustering with Various Benchmarks” Sensors 2021, 21, 3196. https://doi.org/10.3390/s21093196 31 March 2021 Accepted: 29 April 2021 Published: 4 May 2021
7 7. Supavit Kongwudhikunakorn, Kitsana Waiyamai “Combining Distributed Word Representation and Document Distance for Short Text Document Clustering”, Vol.16, No.2, pp.277~300, April 2020 ISSN 1976-913X (Print) https://doi.org/10.3745/JIPS.04.0164 ISSN 2092-805X (Electronic)
8 8. X. H. Phan, L. M. Nguyen, and S. Horiguchi, “Learning to classify short and sparse text & web with hidden topics from large-scale data collections,” in Proceedings of the 17th International Conference on World Wide Web, Beijing, China, 2008, pp. 91-100.
9 9 S. Seifzadeh, A. K. Farahat, M. S. Kamel, and F. Karray, “Short-text clustering using statistical semantics,” in Proceedings of the 24th International Conference on World Wide Web, Florence, Italy, 2015, pp. 805-810.
10 10. Rafael Gallardo Garcıa1, Beatriz Beltran, Darnes Vilarino, Claudia Zepeda1, Rodolfo Martınez “Comparison of Clustering Algorithms in Text Clustering Tasks”, Vol. 24, No. 2, 2020, pp. 429–437 doi: 10.13053/CyS-24-2-3369 ISSN 2007-9737 ´ Language & Knowledge Engineering Lab, Mexico
11 11. А.С. Нужный, ORCID, Е.А. Савельева, ORCID, Д.И. Сорокин, ORCID, “Иерархическая рубрикация текстовых документов” Труды ИСП РАН, том 32, вып. 6, 2020 г. // Trudy ISP RAN/Proc. ISP RAS, vol. 32, issue 6, 2020 DOI: 10.15514/ISPRAS–2020–32(6)– 10 Институт проблем безопасного развития атомной энергетики РАН, 115191, Россия, г. Москва, ул. Большая Тульская, д. 52
12 12. Mohd Aftar Abu Bakar, “Comparative Study of Document Clustering Algorithms” in International Journal of Engineering & Technology · October 2018 DOI: 10.14419/ijet.v7i4.11.20816 PUBLICATIONS 109 CITATIONS
13 13. Gunes Erkan, “Language Model-Based Document Clustering Using Random Walks” Proceedings of the Human Language Technology Conference of the North American Chapter of the ACL, pages 479–486, New York, June 2006. c 2006 Association for Computational Linguistics
14 14. Judith J.E Noorul, Jayakumari J Noorul, “Optimized Distributed Text Document Clustering Algorithm Article in Advances in Intelligent Systems and Computing” · November 2015 DOI: 10.1007/978-81-322-2135-7_60 2 authors: MLCRF IDS View project A novel technique based on texture filtering for medical images View project https://www.researchgate.net/publication/282687805
15 15. A. Sudha Ramkumar, Dr. B. Poorna, “Text Document Clustering Using Dimension Reduction Technique”, International Journal of Applied Engineering Research ISSN 0973-4562 Volume 11, Number 7 (2016) pp 4770-4774 © Research India Publications. https://dx.doi.org/10.37622/IJAER/11.7.2016.4770-4774
16 16. Anna Huang David Milne Eibe Frank Ian H. Witten, “Clustering Documents with Active Learning using Wikipedia” January 2009 DOI:10.1109/ICDM.2008.80 SourceIEEE Xplore Conference: Data Mining, 2008. ICDM '08. Eighth IEEE International Conference.
Waiting