Извлечение информации из Веба (15.03.16)

Доклад посвящен проблеме автоматизации извлечения структурированных данных из веб-страниц. Сегодня Веб хранит колоссальное количество как текстовой, так и медиа-информации и является вместе с тем крупнейшей площадкой для общения людей и обмена мнениями между ними. Эти данные можно использовать для анализа отношения пользователей Веба к различного рода событиям, товарам и услугам, предоставления сервисов агрегации новостей, сравнения цен в интернет-магазинах, рекомендации музыки и фильмов и т.д. Автоматическое извлечение данных, однако, затрудняется нерегулярной структурой HTML-разметки веб-страниц и сложной динамической организацией современных веб-приложений. В докладе я постараюсь рассмотреть основные вопросы, возникающие при решении данной задачи, а также методы их решения на примере классических систем.

Докладчик: Максим Варламов

Литература:

  1. Ferrara E. et al. Web data extraction, applications and techniques: A survey //Knowledge-based systems. – 2014. – Т. 70. – С. 301-323.
  2. Sleiman H. A., Corchuelo R. A survey on region extractors from web documents //Knowledge and Data Engineering, IEEE Transactions on. – 2013. – Т. 25. – №. 9. – С. 1960-1981.
  3. Chang C. H. et al. A survey of web information extraction systems //Knowledge and Data Engineering, IEEE Transactions on. – 2006. – Т. 18. – №. 10. – С. 1411-1428.

Comments are closed.