226

Сўнгги вақтларда матн корпуслари дунё компьютер лингвистикаси (NLP) ва тилшуносликнинг турли соҳалари учун энг муҳим ўрганиш объектига айланиб бормоқда. Бироқ ўзбек тилшунослигида корпус билан боғлиқ жиддий амалий тадқиқотлар амалга оширилган эмас. Шу боисушбу мақолада корпуснинг компьютер моделларини яратишга доир изланишларни таҳлил қилишва улардан унумли фойдаланиш учун эришилган натижаларни қиёсий ўрганишга эътибор қаратилган. Мақолада ўрганиш объектининг ўзига хос хусусиятлари ва фойдаланувчиларнингтурли мақсадларидан келиб чиқиб, электрон корпусларнинг шакллантириш босқичлари бир нечта корпусларнинг қиёсий таҳлили асосида ўрганилди. Таҳлил натижалари шуни кўрсатадики, матнга доир метамаълумотларнинг берилиши, лингвистик жиҳатдан аннотациялаш ва жанрлар таснифини мувофиқлаштириш барча корпуслар учун умумий жиҳатларидан биридир. Компьютер лингвистикасида корпус яратиш меъёрлари ва мезонларини аниқлаш кейинги тадқиқотлар учун муҳим лингвистик ресурс бўлиб хизмат қилади. Тадқиқотнинг натижалари асосида қуйидагихулосага келинди: корпуснинг морфологик, синтактик ва семантик аннотациялари ёрдамида компьютер лингвистикасининг турли илмий йўналишларида дастурий таъминотлар (маълумотларни классификациялаш, маълумотларни қайта ишлаш, машина таржимаси, сентимент анализ) яратиш учун муҳим манба ҳисобланади.

  • Количество прочтений225
  • Дата публикации23-06-2021
  • Язык статьиO'zbek
  • Страницы9
Ўзбек

Сўнгги вақтларда матн корпуслари дунё компьютер лингвистикаси (NLP) ва тилшуносликнинг турли соҳалари учун энг муҳим ўрганиш объектига айланиб бормоқда. Бироқ ўзбек тилшунослигида корпус билан боғлиқ жиддий амалий тадқиқотлар амалга оширилган эмас. Шу боисушбу мақолада корпуснинг компьютер моделларини яратишга доир изланишларни таҳлил қилишва улардан унумли фойдаланиш учун эришилган натижаларни қиёсий ўрганишга эътибор қаратилган. Мақолада ўрганиш объектининг ўзига хос хусусиятлари ва фойдаланувчиларнингтурли мақсадларидан келиб чиқиб, электрон корпусларнинг шакллантириш босқичлари бир нечта корпусларнинг қиёсий таҳлили асосида ўрганилди. Таҳлил натижалари шуни кўрсатадики, матнга доир метамаълумотларнинг берилиши, лингвистик жиҳатдан аннотациялаш ва жанрлар таснифини мувофиқлаштириш барча корпуслар учун умумий жиҳатларидан биридир. Компьютер лингвистикасида корпус яратиш меъёрлари ва мезонларини аниқлаш кейинги тадқиқотлар учун муҳим лингвистик ресурс бўлиб хизмат қилади. Тадқиқотнинг натижалари асосида қуйидагихулосага келинди: корпуснинг морфологик, синтактик ва семантик аннотациялари ёрдамида компьютер лингвистикасининг турли илмий йўналишларида дастурий таъминотлар (маълумотларни классификациялаш, маълумотларни қайта ишлаш, машина таржимаси, сентимент анализ) яратиш учун муҳим манба ҳисобланади.

Русский

В последнее время корпус текстов стал важнейшим объектом изучения для мировой компьютерной лингвистики (NLP) и различных областей лингвистики. Однако, до настоящего времени, практически не было исследований в области узбекской корпусной  лингвистики. Данная статья посвящена анализу компьютерного моделирования корпусных исследований исравнительному изучению результатов, достигнутых при их использовании.В статье рассматриваются этапы построения электронных корпусов в соответствии с потребностями пользователей и специфическими особенностями объекта исследования путем сравнительного анализа. При этом текстовые метаданные, лингвистическая аннотация и жанровая классификация считаются общими характерными чертами для всех существующих корпусов.Определение принципов и критерии создания корпуса в компьютерной лингвистике служат важнейшем языковым ресурсом для дальнейших исследований. На основании результатов исследования, был сделан вывод о том, что морфологические, синтаксические и семантические аннотации корпуса являются важными источниками для разработки программного обеспечения в различных научных областях компьютерной лингвистики (классификация данных, обработка данных, машинного перевода и сентимент анализа).

English

Recently the corpus of texts has become the most important objeof study for worldwide computational linguistics (NLP) and the various fielof linguistics. However there has not been practical implementation research in the area of Uzbek corpus linguistics. Therefore much attention given in the article to analysis of investigations in the scope work on buildincomputational models of corpus and observing comparatively achieveresults for efficient usage of them. The paper deals with the stages of building electron corpora according to different purposes of users and specific peculiarities of an object of study by comparative analysis. In this case balancing genres classification and linguistic annotation, and representation metadata considered common characteristic features for all existing corpora. Identifying principles and criteria of creating corpus in computational linguistics serve as crucial linguistic resource for the further researches. Based on the results of the study, it was concluded that morphological, syntactic and semantic annotations of the corpus are important sources for software development in various scientific areas of computational linguistics (data classification, data processing, machine translation, sentiment analysis and so on).

Имя автора Должность Наименование организации
1 Abdurahmonova N.Z. Филология фанлари бўйича фалсафа доктори (PhD) Алишер Навоий номидаги Тошкент давлат Ўзбек тили ва адабиёти университети
Название ссылки
1 Anke Lüdeling, Merja Kytö Corpus Linguistics An InternationalHandbook,Vol. 1, Berlin, New York: Walter de Gruyter. 2008. 81(2), — Р.246–247 DOI: 10.1080/00393270903392342
2 Bern Heine, Heiko Narrog. The Oxford Handbook of Linguistic Analysis. /Dougles Biber Corpus-based and Corpus-driven analysis of language variationand use UK: Oxford university, 2015 — 193 p.
3 Charlez Meyer English corpus linguistics: An introduction. CambridgeUniversity Press, 2004. — 168 p.
4 Mohamed Zakaria Kurdi. Natural Language Processing and ComputationalLinguistics: Speech, Morphology and Syntax. — Great Britain, USA: Wiley-ISTE2016. — 300 р.
5 Захаров В. П., Богданова С. Ю. Корпусная лингвистика/Учебник длястудентов гуманитарных вузов. — Иркутск: ИГЛУ, 2011. — 161 с.
6 https://www.english-corpora.org
7 http://http//www.anc.org/data/masc/corpus/
8 https://corpus.byu.edu/coca/old/help/compare_oec.asp
9 https://en.wikipedia.org/wiki/Oxford_English_Corpus
10 https://www.google.com/search?q=http%2F%2Fruscorpora.ru%2Fsearch-
11 http://www.ling.helsinki.fi/projects/hanco/
12 http://ruscorpora.ru
В ожидании