Данная статья посвящена созданию инструментов автоматической обработки
информационных Интернет - ресурсов.Представлены результаты анализа методов поиска
неструктурированной информации в сети Интернет. Рассмотрены такие задачи, как сбор и
первичная обработка текстовых данных из новостных источников. Акцент сделан на основных
методиках: анализе способов построения web-сайтов, анализе требований к системам извлечения
информаций, модели системы извлечения информации и реализации метода извлечения
Ушбу мақола интернетдаги маълумотлар манбаини автоматлашган қайта ишлаш
воситаларини яратишга, шунингдек тартибланмаган маълумотларни топиш усулларининг таҳлил
қилишга қаратилган. Янгиликлар манбасидан олинган маълумотларни бирламчи олиш ва қайта
ишлашнинг айрим масалалри кўриб чиқилган. Асосий эътибор асосий методларга ыаратилган:
web сайтларнинг қурилиш усуллари таҳлил, ахборот-қидирув тизими модели ва ахборот-қидирув
тизимларининг талаблари таҳлили.
Данная статья посвящена созданию инструментов автоматической обработки
информационных Интернет - ресурсов.Представлены результаты анализа методов поиска
неструктурированной информации в сети Интернет. Рассмотрены такие задачи, как сбор и
первичная обработка текстовых данных из новостных источников. Акцент сделан на основных
методиках: анализе способов построения web-сайтов, анализе требований к системам извлечения
информаций, модели системы извлечения информации и реализации метода извлечения
This article is devoted to the creation of tools for the automatic processing of information
Internet resources, as well as the article presents an analysis of methods for searchi ng unstructured
information on the Internet. We consider such a task as the collection and primary processing of text data
from news sources. Emphasis is placed on the main methods: analysis of ways to build web sites, analysis
of requirements for information extraction systems, information extraction system model and
implementation of the extraction method
№ | Author name | position | Name of organisation |
---|---|---|---|
1 | Ergashev M.I. | _ | _ |
№ | Name of reference |
---|---|
1 | Кормалев Д. А. Архитектура инструментальных средств систем извлечения информации из текстов // Программные системы: теория и приложения. 2004. T.1. №3. С. 49 68. |
2 | Bing Liu «Web Mining. Data Exploring Hyperlinks, Contents, and Usage Data Second Edition». Springer, 2011 |
3 | Барсегян А.А. Анализ данных и процессов. Изд. 3-е Уч. пособие. Спб.: «БХВ - Петербург», 2009 |
4 | Хорошевский В. Ф. Пространства знаний в сети Интернет и Semantic Web (Часть 1) // Искусственный интеллект и принятие решений.2008.№1.С.80 - 97 |
5 | Ландэ Д .В. Поиск знаний в Internet. М.:Диалектика, 2005 |
6 | W3C Semantic Web Activity. http://www.w3.org/2001/sw/ |
7 | Спецификация RSS, 2000. http://purl.org/rss/1.0 |
8 | Resource Description Framework (RDF). http://www.w3.org/RDF/. |
9 | Методы и средства извлечения слабоструктурированных схем из документов в HTML и конвертирования HTML документов в их XML - представление. http://synthesis.ipi.ac.ru/synthesis/projects/XMLBIS/html2xml_html |
10 | Laender A.H.F. , Ribeir o - Neto B. A. , Juliana S.Teixeria . A brief survey of web data extraction tools. ACM SIGMOD Record.Vol. 31(2). 2002.P. 84 - 93. |
11 | Некрестьянов И. , Павлова Е . Обнаружение структурного подобия HTML-документов.Спб.:СПГУ, 2002. С. 38 – 54. http://meta.math.spbu.ru |
12 | Crescenzi V . , Mecca G . Automatic Information Extraction from Large Websites// Journal of the ACM. Vol. 51. 2004. No. 5. September.Р. 731 – 779 |