АНАЛИЗ МЕТОДОВ ИЗВЛЕЧЕНИЯ ДАННЫХ ИЗ ТЕКСТОВ НОВОСТЕЙ

Ergashev M I

347

Данная статья посвящена созданию инструментов автоматической обработки
информационных Интернет - ресурсов.Представлены результаты анализа методов поиска
неструктурированной информации в сети Интернет. Рассмотрены такие задачи, как сбор и
первичная обработка текстовых данных из новостных источников. Акцент сделан на основных
методиках: анализе способов построения web-сайтов, анализе требований к системам извлечения
информаций, модели системы извлечения информации и реализации метода извлечения

Jurnal nomi“Информатика ва энергетика муаммолари” Ўзбекистон журнали
Nashr soni5-2018
Ko'rishlar soni 347

Internet havola

DOI

UzSCI tizimida yaratilgan sana 15-02-2020

O'qishlar soni 332

Nashr sanasi 18-03-2019

Asosiy tilRus

Sahifalar43-51

Kalit so'z

анализ текстов

информационный поиск

извлечение информации

обработка данных

интеллектуальный анализ данных

новостные источники

обработка HTML

анализ текста

Ўзбек

Ушбу мақола интернетдаги маълумотлар манбаини автоматлашган қайта ишлаш
воситаларини яратишга, шунингдек тартибланмаган маълумотларни топиш усулларининг таҳлил
қилишга қаратилган. Янгиликлар манбасидан олинган маълумотларни бирламчи олиш ва қайта
ишлашнинг айрим масалалри кўриб чиқилган. Асосий эътибор асосий методларга ыаратилган:
web сайтларнинг қурилиш усуллари таҳлил, ахборот-қидирув тизими модели ва ахборот-қидирув
тизимларининг талаблари таҳлили.

Kalit so'z

матн таҳлили

ахборотни қидириш

ахборот олиш

маълумотларни қайта ишлаш

маълумотларнинг интеллектуал таҳлили

янгиликлар манбаи

HTML ни қайта ишлаш

матн таҳлили

Русский

Данная статья посвящена созданию инструментов автоматической обработки
информационных Интернет - ресурсов.Представлены результаты анализа методов поиска
неструктурированной информации в сети Интернет. Рассмотрены такие задачи, как сбор и
первичная обработка текстовых данных из новостных источников. Акцент сделан на основных
методиках: анализе способов построения web-сайтов, анализе требований к системам извлечения
информаций, модели системы извлечения информации и реализации метода извлечения

Kalit so'z

анализ текстов

информационный поиск

извлечение информации

обработка данных

интеллектуальный анализ данных

новостные источники

обработка HTML

анализ текста

English

This article is devoted to the creation of tools for the automatic processing of information
Internet resources, as well as the article presents an analysis of methods for searchi ng unstructured
information on the Internet. We consider such a task as the collection and primary processing of text data
from news sources. Emphasis is placed on the main methods: analysis of ways to build web sites, analysis
of requirements for information extraction systems, information extraction system model and
implementation of the extraction method

Kalit so'z

text analysis

information retrieval

information extraction

data processing

data mining

news sources

HTML processing

text analysis

№ Muallifning F.I.Sh. Lavozimi Tashkilot nomi

1 Ergashev M.I. _ _

№ Havola nomi

1 Кормалев Д. А. Архитектура инструментальных средств систем извлечения информации из текстов // Программные системы: теория и приложения. 2004. T.1. №3. С. 49  68.

2 Bing Liu «Web Mining. Data Exploring Hyperlinks, Contents, and Usage Data Second Edition». Springer, 2011

3 Барсегян А.А. Анализ данных и процессов. Изд. 3-е Уч. пособие. Спб.: «БХВ - Петербург», 2009

4 Хорошевский В. Ф. Пространства знаний в сети Интернет и Semantic Web (Часть 1) // Искусственный интеллект и принятие решений.2008.№1.С.80 - 97

5 Ландэ Д .В. Поиск знаний в Internet. М.:Диалектика, 2005

6 W3C Semantic Web Activity. http://www.w3.org/2001/sw/

7 Спецификация RSS, 2000. http://purl.org/rss/1.0

8 Resource Description Framework (RDF). http://www.w3.org/RDF/.

9 Методы и средства извлечения слабоструктурированных схем из документов в HTML и конвертирования HTML документов в их XML - представление. http://synthesis.ipi.ac.ru/synthesis/projects/XMLBIS/html2xml_html

10 Laender A.H.F. , Ribeir o - Neto B. A. , Juliana S.Teixeria . A brief survey of web data extraction tools. ACM SIGMOD Record.Vol. 31(2). 2002.P. 84 - 93.

11 Некрестьянов И. , Павлова Е . Обнаружение структурного подобия HTML-документов.Спб.:СПГУ, 2002. С. 38 – 54. http://meta.math.spbu.ru

12 Crescenzi V . , Mecca G . Automatic Information Extraction from Large Websites// Journal of the ACM. Vol. 51. 2004. No. 5. September.Р. 731 – 779

Kutilmoqda

№	Havola nomi
1	Кормалев Д. А. Архитектура инструментальных средств систем извлечения информации из текстов // Программные системы: теория и приложения. 2004. T.1. №3. С. 49  68.
2	Bing Liu «Web Mining. Data Exploring Hyperlinks, Contents, and Usage Data Second Edition». Springer, 2011
3	Барсегян А.А. Анализ данных и процессов. Изд. 3-е Уч. пособие. Спб.: «БХВ - Петербург», 2009
4	Хорошевский В. Ф. Пространства знаний в сети Интернет и Semantic Web (Часть 1) // Искусственный интеллект и принятие решений.2008.№1.С.80 - 97
5	Ландэ Д .В. Поиск знаний в Internet. М.:Диалектика, 2005
6	W3C Semantic Web Activity. http://www.w3.org/2001/sw/
7	Спецификация RSS, 2000. http://purl.org/rss/1.0
8	Resource Description Framework (RDF). http://www.w3.org/RDF/.
9	Методы и средства извлечения слабоструктурированных схем из документов в HTML и конвертирования HTML документов в их XML - представление. http://synthesis.ipi.ac.ru/synthesis/projects/XMLBIS/html2xml_html
10	Laender A.H.F. , Ribeir o - Neto B. A. , Juliana S.Teixeria . A brief survey of web data extraction tools. ACM SIGMOD Record.Vol. 31(2). 2002.P. 84 - 93.
11	Некрестьянов И. , Павлова Е . Обнаружение структурного подобия HTML-документов.Спб.:СПГУ, 2002. С. 38 – 54. http://meta.math.spbu.ru
12	Crescenzi V . , Mecca G . Automatic Information Extraction from Large Websites// Journal of the ACM. Vol. 51. 2004. No. 5. September.Р. 731 – 779