547

Настоящая  статья  посвящена  классификации  текстов  узбекского  языка  на  основе 
технологий  интеллектуального  анализа.  Рассмотрежым  модель  Бернулли  и  мультиноминальная
модель  классификации  на  основе  текстовых  документов  из  государственных  официальных 
информационных  источников  Национального  информационного  агентства  Узбекистана.   При 
сравнении вероятностных методов классификации использованы 600 документов, которые состоят 
из 169205 слов, относящихся к 6 классам. 

  • Web Address
  • DOI
  • Date of creation in the UzSCI system 15-02-2020
  • Read count 492
  • Date of publication 18-03-2019
  • Main LanguageRus
  • Pages35-39
Ўзбек

Мазкур  мақола  ўзбек  тилидаги  матнларни  интеллектуал  таҳлил  қилиш  технологиялари 
асосида  таснифлашга  бағишланган  бўлиб,  унда  таснифлашнинг  Бернулли  ҳамда  мультиноминал 
моделлари  кўриб  чиқилган.  Тадқиқотда  фойдаланилган  матнли  ҳужжатлар  Ўзбекистон  Миллий 
ахборот  агентлиги  давлат  расмий  ахборот  манбаидан  олинган.  Таснифлашнинг  эҳтимолий 
усулларини  қиёслаш  учун  6  та  синфга  тегишли  169205  та  сўздан  иборат  600  та  ҳужжатдан 
фойдаланилган.

Русский

Настоящая  статья  посвящена  классификации  текстов  узбекского  языка  на  основе 
технологий  интеллектуального  анализа.  Рассмотрежым  модель  Бернулли  и  мультиноминальная
модель  классификации  на  основе  текстовых  документов  из  государственных  официальных 
информационных  источников  Национального  информационного  агентства  Узбекистана.   При 
сравнении вероятностных методов классификации использованы 600 документов, которые состоят 
из 169205 слов, относящихся к 6 классам. 

English

This  article  is  devoted  to  the  classification  of  texts  of  the  Uzbek  language  on  the  basis  of 
intelligent  analysis  technologies,  the  article  considers  the  Bernoulli  model  and  the  multinomial 
classification  model.  The  text  documents  used  in  the  article  are  taken  from  the  officia l  official 
information  sources  of  the  National  Information  Agency  of  Uzbekistan.  When  comparing  probabilistic 
classification methods, 600 documents are used, which consist of 169205 words, referring to 6 classes.

Name of reference
1 Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval (1). Cambridge Cambridge:University Press, 2008
2 Madsen R.E., Sigurdsson S., Hansen L.K., Larsen J. Pruning the vocabulary for better context recognition//Proceedings of the International Conference on Pattern Recognition.Vol. 2. 2004. P. 483 - 488
3 Paik J.H. A novel tf-idf weighting scheme for effective ranking, Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, 2013. Р. 343 - 352
4 Kim S.B., Han K.S., Rim H.C., Myaeng S.H. Some Effective Techniques for Naive Bayes Text Classification, IEEE Transactions on Knowledge and Data Engineering, December, 2006
5 Алексеев А. А., Катасёв А. С., Кириллов А. Е., Кирпичников А. П. Классификация текстовых документов на основе технологии text mining // Информатика, Вычислительная Техника и Управление. Вестник технологического университета. 2016. Т.19. №18.
6 Поляков И. В., Соколова Т. В., Чеповский А. А., Чеповский А. М. Проблема классификации текстов и дифференцирующие признаки // Вестник. Новосиб. гос. ун-та. Серия “Информационные технологии”.Вып.2.2015. Т. 13. С. 55–63
Waiting