Настоящая статья посвящена классификации текстов узбекского языка на основе
технологий интеллектуального анализа. Рассмотрежым модель Бернулли и мультиноминальная
модель классификации на основе текстовых документов из государственных официальных
информационных источников Национального информационного агентства Узбекистана. При
сравнении вероятностных методов классификации использованы 600 документов, которые состоят
из 169205 слов, относящихся к 6 классам.
Мазкур мақола ўзбек тилидаги матнларни интеллектуал таҳлил қилиш технологиялари
асосида таснифлашга бағишланган бўлиб, унда таснифлашнинг Бернулли ҳамда мультиноминал
моделлари кўриб чиқилган. Тадқиқотда фойдаланилган матнли ҳужжатлар Ўзбекистон Миллий
ахборот агентлиги давлат расмий ахборот манбаидан олинган. Таснифлашнинг эҳтимолий
усулларини қиёслаш учун 6 та синфга тегишли 169205 та сўздан иборат 600 та ҳужжатдан
фойдаланилган.
Настоящая статья посвящена классификации текстов узбекского языка на основе
технологий интеллектуального анализа. Рассмотрежым модель Бернулли и мультиноминальная
модель классификации на основе текстовых документов из государственных официальных
информационных источников Национального информационного агентства Узбекистана. При
сравнении вероятностных методов классификации использованы 600 документов, которые состоят
из 169205 слов, относящихся к 6 классам.
This article is devoted to the classification of texts of the Uzbek language on the basis of
intelligent analysis technologies, the article considers the Bernoulli model and the multinomial
classification model. The text documents used in the article are taken from the officia l official
information sources of the National Information Agency of Uzbekistan. When comparing probabilistic
classification methods, 600 documents are used, which consist of 169205 words, referring to 6 classes.
№ | Ҳавола номи |
---|---|
1 | Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval (1). Cambridge Cambridge:University Press, 2008 |
2 | Madsen R.E., Sigurdsson S., Hansen L.K., Larsen J. Pruning the vocabulary for better context recognition//Proceedings of the International Conference on Pattern Recognition.Vol. 2. 2004. P. 483 - 488 |
3 | Paik J.H. A novel tf-idf weighting scheme for effective ranking, Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, 2013. Р. 343 - 352 |
4 | Kim S.B., Han K.S., Rim H.C., Myaeng S.H. Some Effective Techniques for Naive Bayes Text Classification, IEEE Transactions on Knowledge and Data Engineering, December, 2006 |
5 | Алексеев А. А., Катасёв А. С., Кириллов А. Е., Кирпичников А. П. Классификация текстовых документов на основе технологии text mining // Информатика, Вычислительная Техника и Управление. Вестник технологического университета. 2016. Т.19. №18. |
6 | Поляков И. В., Соколова Т. В., Чеповский А. А., Чеповский А. М. Проблема классификации текстов и дифференцирующие признаки // Вестник. Новосиб. гос. ун-та. Серия “Информационные технологии”.Вып.2.2015. Т. 13. С. 55–63 |