Sun’iy intellekt algoritmlari asosida matn tilini avtomatik aniqlash

Xujayarov Ilyos Shiraliyevich; Ochilov Mannon; Xolmatov Orzimurod; Jurayev Dilshod

doi:https://doi.org/10.62132/ijdt.v7i2.182

307

Maqolada matn tilini aniqlashning sun’iy intellekt algoritmlariga asoslangan yondashuvlari muhokama qilinadi. Matn tilini aniqlash sun’iy intelletkning sinflashtirish masalasi bo‘lganligi sababli, maqolada mashinali o‘qitish va neyron tarmoq modellarining bir nechta sinflashtirish algoritmlari imkoniyatlari ko‘rib o‘tiladi. Ishda o‘zbek, inlgiz, rus, qoraqalpoq tillarini aniqlovchi model uchun o‘quv ma’lumotlar to‘plamini shakllantirish masalasi ko‘riladi. Shuningdek matn tilini aniqlashda foydalanilgan modellarning aniqlik ko‘rsatkichlari bo‘yicha qiyosiy tahlil amalga oshiriladi.

Name of journalRaqamli texnologiyalarning nazariy va amaliy masalalari xalqaro jurnali
Number of editionTom 7, № 2 (2024)
View count 307

Web Address https://ijdt.uz/index.php/ijdt/article/view/182

DOIhttps://doi.org/10.62132/ijdt.v7i2.182

Date of creation in the UzSCI system 02-08-2024

Read count 307

Date of publication 02-08-2024

Main LanguageO'zbek

Pages59-67

Tags

NLP

sinflashtirish

mashinali o‘qitish

crowling

matn tili

o‘quv ma’lumotlar to‘plami

chuqur o‘qitish

rekurrent neyron tarmoqlar

model aniqligini baholash

Ўзбек

Maqolada matn tilini aniqlashning sun’iy intellekt algoritmlariga asoslangan yondashuvlari muhokama qilinadi. Matn tilini aniqlash sun’iy intelletkning sinflashtirish masalasi bo‘lganligi sababli, maqolada mashinali o‘qitish va neyron tarmoq modellarining bir nechta sinflashtirish algoritmlari imkoniyatlari ko‘rib o‘tiladi. Ishda o‘zbek, inlgiz, rus, qoraqalpoq tillarini aniqlovchi model uchun o‘quv ma’lumotlar to‘plamini shakllantirish masalasi ko‘riladi. Shuningdek matn tilini aniqlashda foydalanilgan modellarning aniqlik ko‘rsatkichlari bo‘yicha qiyosiy tahlil amalga oshiriladi.

Tags

NLP

sinflashtirish

mashinali o‘qitish

crowling

matn tili

o‘quv ma’lumotlar to‘plami

chuqur o‘qitish

rekurrent neyron tarmoqlar

model aniqligini baholash

English

The article discusses approaches to text recognition based on artificial intelligence algorithms. Since text language identification is a classification problem in artificial intelligence, the article examines the capabilities of several classification algorithms using machine learning and neural network models. The study addresses the issue of forming a training dataset for a model that identifies Uzbek, English, Russian, and Karakalpak languages. Additionally, a comparative analysis of the accuracy indicators of the models used for text language identification is conducted.

Tags

classification

Machine Learning

NLP

deep learning

recurrent neural networks

crowling

text language

training dataset

model accuracy evaluation

Русский

В статье рассматриваются подходы к распознаванию текста на основе алгоритмов искусственного интеллекта. Поскольку идентификация языка текста является проблемой классификации в искусственном интеллекте, в статье рассматриваются возможности нескольких алгоритмов классификации с использованием моделей машинного обучения и нейронных сетей. Рассмотрен вопрос формирования обучающего набора данных для модели, определяющей узбекский, английский, русский и каракалпакские языки. Дополнительно проводится сравнительный анализ показателей точности моделей, используемых для идентификации языка текста.

Tags

классификация

Машинное обучение

глубокое обучение

рекуррентные нейронные сети

Обработка естественного языка-NLP

краулинг

текстовый язык

обучающий набор данных

оценка точности модели

№ Author name position Name of organisation

1 Xujayarov I.S. Kafedra mudiri Toshkent Axborot Texnologiyalari Universiteti Samarqand filiali

2 Ochilov M.. Dotsent TATU

3 Xolmatov O.. Doktorant TATU

4 Jurayev D.. Doktorant TATU

№ Name of reference

1 Jurafskiy, D., & Martin, J. H. "Speech and Language Processing" (3rd ed.) (2019).

2 Xolmatov O.A., Kamolov R.K. NLP da savol-javob tizimlarini yaratish turlari va bosqichlari. Muhammad al-Xorazmiy nomidagi TATU Samarqand filiali. “O‘zbek tilining milliy korpusi: muammolar va vazifalar” mavzusidagi xalqaro ilmiy-amaliy konferensiya.

3 Xujayarov I.Sh, Ochilov M.M. Neyron tarmoqlariga asoslangan nutq signallarini akustik modellashtirish usullari tahlili.

4 S. Ibragimova, T. Boburkhon, M. Abdullayeva. Solving the problems of normalization of non-standard words in the text of the uzbek language Acta of Turin Polytechnic University in Tashkent 13 (3), pp. 38-42.

5 Bird, S., Klein, E., & Loper, E. "Natural Language Processing with Python." O‘Reilly Media (2009).

6 Nielsen, M. A. "Neural Networks and Deep Learning." Determination Press (2015).

7 Brownlee, J. "Long Short-Term Memory Networks with Python." Machine Learning Mastery (2018).

8 Gulli, A., & Pal, S. "Deep Learning with Keras." Packt Publishing (2017).

9 Zhang, J., Zhao, J., & LeCun, Y. "Character-level Convolutional Networks for Text Classification." Advances in Neural Information Processing Systems (2015).

10 Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation. 1997. vol. 9. no. 8. pp. 1735–1780.

11 Musaev M., Khujayorov I., Ochilov M. “Development of integral model of speech recognition system for Uzbek language” IEEE 14th International Coference on Application of Information and Communication Technologies (AICT). 07 09 October 2020.

12 Musaev M., Khujayarov I., Ochilov M. “Speech Recognition Technologies Based on Artificial Intelligence Algorithms” Intelligent Human Computer Interaction: 14th International Conference, IHCI 2022, Tashkent, Uzbekistan, October 20–22, 2022, Pages 51–62.

13 Abdullaeva M.I., Juraev D.B., Ochilov M.M., Rakhimov M.F., Uzbek Speech Synthesis Using Deep Learning Algorithms. The 14th International Conference on Intelligent Human Computer Interaction, Springer, (LNCS,volume 13741), Tashkent – 2023, pp 39–50.

14 Xujayarov I.Sh, Ochilov M.M. Neyron tarmoqlariga asoslangan nutq signallarini akustik modellashtirish usullari tahlili.

15 S Ibragimova, T Boburkhon, M Abdullayeva. Solving the problems of normalization of non-standard words in the text of the uzbek language Acta of Turin Polytechnic University in Tashkent 13 (3), pp. 38-42 .

16 Abdullayeva M.I., Jurayev D.B, Ochilov M.M. Nutqni imo-ishora tiliga tarjima qilish tizimlarida matnlarga ishlov berish. TATU xabarlari, b. 112-118.

Waiting

№	Author name	position	Name of organisation
1	Xujayarov I.S.	Kafedra mudiri	Toshkent Axborot Texnologiyalari Universiteti Samarqand filiali
2	Ochilov M..	Dotsent	TATU
3	Xolmatov O..	Doktorant	TATU
4	Jurayev D..	Doktorant	TATU

№	Name of reference
1	Jurafskiy, D., & Martin, J. H. "Speech and Language Processing" (3rd ed.) (2019).
2	Xolmatov O.A., Kamolov R.K. NLP da savol-javob tizimlarini yaratish turlari va bosqichlari. Muhammad al-Xorazmiy nomidagi TATU Samarqand filiali. “O‘zbek tilining milliy korpusi: muammolar va vazifalar” mavzusidagi xalqaro ilmiy-amaliy konferensiya.
3	Xujayarov I.Sh, Ochilov M.M. Neyron tarmoqlariga asoslangan nutq signallarini akustik modellashtirish usullari tahlili.
4	S. Ibragimova, T. Boburkhon, M. Abdullayeva. Solving the problems of normalization of non-standard words in the text of the uzbek language Acta of Turin Polytechnic University in Tashkent 13 (3), pp. 38-42.
5	Bird, S., Klein, E., & Loper, E. "Natural Language Processing with Python." O‘Reilly Media (2009).
6	Nielsen, M. A. "Neural Networks and Deep Learning." Determination Press (2015).
7	Brownlee, J. "Long Short-Term Memory Networks with Python." Machine Learning Mastery (2018).
8	Gulli, A., & Pal, S. "Deep Learning with Keras." Packt Publishing (2017).
9	Zhang, J., Zhao, J., & LeCun, Y. "Character-level Convolutional Networks for Text Classification." Advances in Neural Information Processing Systems (2015).
10	Hochreiter S., Schmidhuber J. Long short-term memory. Neural computation. 1997. vol. 9. no. 8. pp. 1735–1780.
11	Musaev M., Khujayorov I., Ochilov M. “Development of integral model of speech recognition system for Uzbek language” IEEE 14th International Coference on Application of Information and Communication Technologies (AICT). 07 09 October 2020.
12	Musaev M., Khujayarov I., Ochilov M. “Speech Recognition Technologies Based on Artificial Intelligence Algorithms” Intelligent Human Computer Interaction: 14th International Conference, IHCI 2022, Tashkent, Uzbekistan, October 20–22, 2022, Pages 51–62.
13	Abdullaeva M.I., Juraev D.B., Ochilov M.M., Rakhimov M.F., Uzbek Speech Synthesis Using Deep Learning Algorithms. The 14th International Conference on Intelligent Human Computer Interaction, Springer, (LNCS,volume 13741), Tashkent – 2023, pp 39–50.
14	Xujayarov I.Sh, Ochilov M.M. Neyron tarmoqlariga asoslangan nutq signallarini akustik modellashtirish usullari tahlili.
15	S Ibragimova, T Boburkhon, M Abdullayeva. Solving the problems of normalization of non-standard words in the text of the uzbek language Acta of Turin Polytechnic University in Tashkent 13 (3), pp. 38-42 .
16	Abdullayeva M.I., Jurayev D.B, Ochilov M.M. Nutqni imo-ishora tiliga tarjima qilish tizimlarida matnlarga ishlov berish. TATU xabarlari, b. 112-118.