189

Данная  статья  посвящена  созданию  инструментов  автоматической  обработки 
информационных  Интернет - ресурсов.Представлены  результаты  анализа  методов  поиска 
неструктурированной  информации  в  сети  Интернет.  Рассмотрены  такие  задачи,  как  сбор  и 
первичная  обработка  текстовых  данных  из  новостных  источников.  Акцент  сделан  на  основных 
методиках:  анализе  способов построения web-сайтов,  анализе  требований к системам извлечения 
информаций, модели системы извлечения информации и реализации метода извлечения

  • Web Address
  • DOI
  • Date of creation in the UzSCI system 15-02-2020
  • Read count 174
  • Date of publication 18-03-2019
  • Main LanguageRus
  • Pages43-51
Ўзбек

Ушбу  мақола  интернетдаги  маълумотлар  манбаини  автоматлашган  қайта  ишлаш 
воситаларини яратишга, шунингдек тартибланмаган  маълумотларни  топиш  усулларининг  таҳлил
қилишга  қаратилган.  Янгиликлар  манбасидан  олинган  маълумотларни  бирламчи  олиш  ва  қайта 
ишлашнинг  айрим  масалалри  кўриб  чиқилган.  Асосий  эътибор  асосий  методларга  ыаратилган: 
web  сайтларнинг қурилиш усуллари таҳлил,  ахборот-қидирув тизими  модели  ва ахборот-қидирув 
тизимларининг талаблари таҳлили.

Русский

Данная  статья  посвящена  созданию  инструментов  автоматической  обработки 
информационных  Интернет - ресурсов.Представлены  результаты  анализа  методов  поиска 
неструктурированной  информации  в  сети  Интернет.  Рассмотрены  такие  задачи,  как  сбор  и 
первичная  обработка  текстовых  данных  из  новостных  источников.  Акцент  сделан  на  основных 
методиках:  анализе  способов построения web-сайтов,  анализе  требований к системам извлечения 
информаций, модели системы извлечения информации и реализации метода извлечения

English

This  article  is  devoted  to  the  creation  of  tools  for  the  automatic  processing  of  information 
Internet  resources,  as  well  as  the  article  presents  an  analysis  of  methods  for  searchi ng  unstructured 
information on the Internet. We consider such a task as the collection and primary processing of text data 
from news sources. Emphasis is placed on the main methods: analysis of ways to build web sites, analysis 
of  requirements  for  information  extraction  systems,  information  extraction  system  model  and 
implementation of the extraction method

Author name position Name of organisation
1 Ergashev M.I. _ _
Name of reference
1 Кормалев Д. А. Архитектура инструментальных средств систем извлечения информации из текстов // Программные системы: теория и приложения. 2004. T.1. №3. С. 49  68.
2 Bing Liu «Web Mining. Data Exploring Hyperlinks, Contents, and Usage Data Second Edition». Springer, 2011
3 Барсегян А.А. Анализ данных и процессов. Изд. 3-е Уч. пособие. Спб.: «БХВ - Петербург», 2009
4 Хорошевский В. Ф. Пространства знаний в сети Интернет и Semantic Web (Часть 1) // Искусственный интеллект и принятие решений.2008.№1.С.80 - 97
5 Ландэ Д .В. Поиск знаний в Internet. М.:Диалектика, 2005
6 W3C Semantic Web Activity. http://www.w3.org/2001/sw/
7 Спецификация RSS, 2000. http://purl.org/rss/1.0
8 Resource Description Framework (RDF). http://www.w3.org/RDF/.
9 Методы и средства извлечения слабоструктурированных схем из документов в HTML и конвертирования HTML документов в их XML - представление. http://synthesis.ipi.ac.ru/synthesis/projects/XMLBIS/html2xml_html
10 Laender A.H.F. , Ribeir o - Neto B. A. , Juliana S.Teixeria . A brief survey of web data extraction tools. ACM SIGMOD Record.Vol. 31(2). 2002.P. 84 - 93.
11 Некрестьянов И. , Павлова Е . Обнаружение структурного подобия HTML-документов.Спб.:СПГУ, 2002. С. 38 – 54. http://meta.math.spbu.ru
12 Crescenzi V . , Mecca G . Automatic Information Extraction from Large Websites// Journal of the ACM. Vol. 51. 2004. No. 5. September.Р. 731 – 779
Waiting