КЛАССИФИКАЦИЯ ТЕКСТОВ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ

427

Настоящая статья посвящена классификации текстов узбекского языка на основе
технологий интеллектуального анализа. Рассмотрежым модель Бернулли и мультиноминальная
модель классификации на основе текстовых документов из государственных официальных
информационных источников Национального информационного агентства Узбекистана. При
сравнении вероятностных методов классификации использованы 600 документов, которые состоят
из 169205 слов, относящихся к 6 классам.

Название журнала“Информатика ва энергетика муаммолари” Ўзбекистон журнали
Номер выпуска5-2018
Количество просмотров427

Ссылка в интернете

DOI

Дата создание в систему UzSCI15-02-2020

Количество прочтений372

Дата публикации17-03-2019

Язык статьиRus

Страницы35-39

Ключевые слова

Текст

классификация

Бернулли

Байес

мультиноминал

вероятностная модель

Ўзбек

Мазкур мақола ўзбек тилидаги матнларни интеллектуал таҳлил қилиш технологиялари
асосида таснифлашга бағишланган бўлиб, унда таснифлашнинг Бернулли ҳамда мультиноминал
моделлари кўриб чиқилган. Тадқиқотда фойдаланилган матнли ҳужжатлар Ўзбекистон Миллий
ахборот агентлиги давлат расмий ахборот манбаидан олинган. Таснифлашнинг эҳтимолий
усулларини қиёслаш учун 6 та синфга тегишли 169205 та сўздан иборат 600 та ҳужжатдан
фойдаланилган.

Ключевые слова

Матн

таснифлаш

Бернулли

эҳтимолли модел

Байес

мультиноминал

Русский

Настоящая статья посвящена классификации текстов узбекского языка на основе
технологий интеллектуального анализа. Рассмотрежым модель Бернулли и мультиноминальная
модель классификации на основе текстовых документов из государственных официальных
информационных источников Национального информационного агентства Узбекистана. При
сравнении вероятностных методов классификации использованы 600 документов, которые состоят
из 169205 слов, относящихся к 6 классам.

Ключевые слова

Текст

классификация

Бернулли

Байес

мультиноминал

вероятностная модель

English

This article is devoted to the classification of texts of the Uzbek language on the basis of
intelligent analysis technologies, the article considers the Bernoulli model and the multinomial
classification model. The text documents used in the article are taken from the officia l official
information sources of the National Information Agency of Uzbekistan. When comparing probabilistic
classification methods, 600 documents are used, which consist of 169205 words, referring to 6 classes.

Ключевые слова

text

classification

Bernoulli

probabilistic model

Bayes

multinomial

№ Имя автора Должность Наименование организации

1 Mamatov N.S. _ Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети ҳузуридаги ахборот-коммуникация технологиялари илмий-инновацион маркази

2 Babomuradov O.J. _ Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети ҳузуридаги ахборот-коммуникация технологиялари илмий-инновацион маркази

3 Boboev L.B. _ Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети ҳузуридаги ахборот-коммуникация технологиялари илмий-инновацион маркази

№ Название ссылки

1 Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval (1). Cambridge Cambridge:University Press, 2008

2 Madsen R.E., Sigurdsson S., Hansen L.K., Larsen J. Pruning the vocabulary for better context recognition//Proceedings of the International Conference on Pattern Recognition.Vol. 2. 2004. P. 483 - 488

3 Paik J.H. A novel tf-idf weighting scheme for effective ranking, Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, 2013. Р. 343 - 352

4 Kim S.B., Han K.S., Rim H.C., Myaeng S.H. Some Effective Techniques for Naive Bayes Text Classification, IEEE Transactions on Knowledge and Data Engineering, December, 2006

5 Алексеев А. А., Катасёв А. С., Кириллов А. Е., Кирпичников А. П. Классификация текстовых документов на основе технологии text mining // Информатика, Вычислительная Техника и Управление. Вестник технологического университета. 2016. Т.19. №18.

6 Поляков И. В., Соколова Т. В., Чеповский А. А., Чеповский А. М. Проблема классификации текстов и дифференцирующие признаки // Вестник. Новосиб. гос. ун-та. Серия “Информационные технологии”.Вып.2.2015. Т. 13. С. 55–63

В ожидании

№	Имя автора	Должность	Наименование организации
1	Mamatov N.S.	_	Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети ҳузуридаги ахборот-коммуникация технологиялари илмий-инновацион маркази
2	Babomuradov O.J.	_	Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети ҳузуридаги ахборот-коммуникация технологиялари илмий-инновацион маркази
3	Boboev L.B.	_	Муҳаммад ал-Хоразмий номидаги Тошкент ахборот технологиялари университети ҳузуридаги ахборот-коммуникация технологиялари илмий-инновацион маркази

№	Название ссылки
1	Manning C.D., Raghavan P., Schütze H. Introduction to Information Retrieval (1). Cambridge Cambridge:University Press, 2008
2	Madsen R.E., Sigurdsson S., Hansen L.K., Larsen J. Pruning the vocabulary for better context recognition//Proceedings of the International Conference on Pattern Recognition.Vol. 2. 2004. P. 483 - 488
3	Paik J.H. A novel tf-idf weighting scheme for effective ranking, Proceedings of the International ACM SIGIR Conference on Research and Development in Information Retrieval, 2013. Р. 343 - 352
4	Kim S.B., Han K.S., Rim H.C., Myaeng S.H. Some Effective Techniques for Naive Bayes Text Classification, IEEE Transactions on Knowledge and Data Engineering, December, 2006
5	Алексеев А. А., Катасёв А. С., Кириллов А. Е., Кирпичников А. П. Классификация текстовых документов на основе технологии text mining // Информатика, Вычислительная Техника и Управление. Вестник технологического университета. 2016. Т.19. №18.
6	Поляков И. В., Соколова Т. В., Чеповский А. А., Чеповский А. М. Проблема классификации текстов и дифференцирующие признаки // Вестник. Новосиб. гос. ун-та. Серия “Информационные технологии”.Вып.2.2015. Т. 13. С. 55–63