177

Мақолада ўзбек тили электрон корпуси (http://uzbekcorpus.uz) учун матнлар репрезентативлиги масаласи ўрганилган. Корпус учун матн танлашнинг статистик усули, ҳажми, миқдори каби омиллар корпус лойиҳалашнинг муҳим мезонларидан бири саналади. Унга кўра матн репрезентативлиги оғзаки ва ёзма матнлар учун турли ҳолатда бўлади. Ёзма матнларнинг графикаси, нормаллаштириш талаблари, матн элементларини компьютер таҳлилининг аниқлиги ва фойдаланиш имкониятининг қулайлиги учун мослаштириш, қолаверса, овозли матнларни транслитерациялаш ҳамда қидирув тизимига сегмент бирликларни унга мос тартибда белгилаш матн репрезентативлигининг асоси ҳисобланади.

  • Web Address
  • DOI
  • Date of creation in the UzSCI system14-09-2022
  • Read count0
  • Date of publication15-07-2021
  • Main LanguageO'zbek
  • Pages169-173
Ўзбек

Мақолада ўзбек тили электрон корпуси (http://uzbekcorpus.uz) учун матнлар репрезентативлиги масаласи ўрганилган. Корпус учун матн танлашнинг статистик усули, ҳажми, миқдори каби омиллар корпус лойиҳалашнинг муҳим мезонларидан бири саналади. Унга кўра матн репрезентативлиги оғзаки ва ёзма матнлар учун турли ҳолатда бўлади. Ёзма матнларнинг графикаси, нормаллаштириш талаблари, матн элементларини компьютер таҳлилининг аниқлиги ва фойдаланиш имкониятининг қулайлиги учун мослаштириш, қолаверса, овозли матнларни транслитерациялаш ҳамда қидирув тизимига сегмент бирликларни унга мос тартибда белгилаш матн репрезентативлигининг асоси ҳисобланади.

Русский

Данная статья посвящена вопросу представления текста для электронного корпуса узбекского языка (http://uzbekcorpus.uz). Такие факторы, как статистический метод, размер, количество выделенного текста для корпуса являются одними из важных критериев дизайна корпуса. В соответствии с этим репрезентативность текста различна для устных и письменных текстов. Графика письменных текстов, требования стандартизации, адаптация текстовых элементов для точности и удобства использования компьютерного анализа, а также транслитерация аудиотекстов и присвоение сегментных единиц менеджеру корпуса в соответствующем порядке ‒ основа репрезентативности текста.

English

This article is devoted to the issue of text representation for the Uzbek language electronic corpus (http://uzbekcorpus.uz). Factors such as the statistical method, size, quantity of text selection for the corpus are one of the important criteria of the corpus design. According to this, the representativeness of the text is different for oral and written texts. Graphics of written texts, standardization requirements, adaptation of text elements for the accuracy and convenient of use of computer analysis, as well as transliteration of audio texts and assignment of segment units to the corpus manager in the appropriate order are the basis of text representativeness.
 

Name of reference
1 1. Карпович С.Н. Русскоязычный корпус текстов sctm-ru для построения тематических моделей / Труды СПИИРАН. 2015. Вып. 2(39). ISSN 2078-9181 (печ.), ISSN 2078-9599 (онлайн) www.proceedings.spiiras.nw.ru,
2 2.  Мелконян Э. Соотношение корпусной лингвистики и типологии / Proceedings of the international conference «CORPUS LINGUISTICS–2019»
3 3. Карпович С.Н. Русскоязычный корпус текстов SCTM-RU для построения тематических моделей труды СПИИРАН. 2015. Вып. 2(39). ISSN 2078-9181 (печ.), ISSN 2078-9599 (онлайн) www.proceedings.spiiras.nw.ru,
4 4. Захаров В.П., Азарова И.В. и др. Моделирование в корпусной лингвистике: Специализированные корпусы русского языка, ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО университета, 2019.
5 5. Kurs “Korpusnaya lingvistika”/ Kutuzov A.B. / Litsenziya Creative commons Attribution Share-Alike 3.0 Unported. - http://www. ruscorpora.ru.
6 6. Sharov S.A. Predstavitelniy korpus russkogo yazika v kontekste mirovogo opita. - https//lamb.viniti.ru.
7 7. Захаров В.П., Азарова И.В. и др. Моделирование в корпусной лингвистике: Специализированные корпусы русского языка, ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО университета, 2019.
8 8. Захаров В.П., Азарова И.В. и др. Моделирование в корпусной лингвистике: Специализированные корпусы русского языка, ИЗДАТЕЛЬСТВО САНКТ-ПЕТЕРБУРГСКОГО университета, 2019.]
Waiting