Интернет – повседневный источник самых разнообразных данных для множества людей уже многие годы. Поиск товаров и услуг, анализ отзывов на них – эти и многие другие варианты использования интернета могут быть автоматизированы. Однако, несмотря на то, что большая часть данных в интернете представлена в виде HTML разметки, это мало помогает автоматическому извлечению семантики. HTML веб-страниц написан таким образом, чтобы размещенная на ней информация была легко доступна человеку, но она не является машинно-читаемой. HTML – язык разметки, но не язык описания семантики. С начала 2000-х годов консорциумом WWW разрабатываются стандарты так называемого Semantic Web, однако они не нашли существенного применения на практике. Задача извлечения информации из Веб продолжает оставаться актуальной.

В докладе будет сделан обзор одного из подходов к автоматическому извлечению информации из Интернета: Wrapper Induction. Будут рассмотрены как классические, так и современные системы.

Докладчик: Ярослав Недумов

Презентация (pdf)

  • Chang, C.-H., Mohammed Kayed, R. Girgis, и Khaled F. Shaalan. «A survey of web information extraction systems». Knowledge and Data Engineering, IEEE Transactions on 18, № 10 (2006 г.): 1411–1428.
  • Ferrara, Emilio, Pasquale De Meo, Giacomo Fiumara, и Robert Baumgartner. «Web data extraction, applications and techniques: a survey». arXiv preprint arXiv:1207.0246 (2012 г.). http://arxiv.org/abs/1207.0246.
  • Furche, Tim, Georg Gottlob, Giovanni Grasso, Omer Gunes, Xiaoanan Guo, Andrey Kravchenko, Giorgio Orsi, Christian Schallhart, Andrew Sellers, and Cheng Wang. 2012. “DIADEM: Domain-Centric, Intelligent, Automated Data Extraction Methodology.” In Proceedings of the 21st International Conference Companion on World Wide Web, 267–70. http://dl.acm.org/citation.cfm?id=2188025.
  • Crescenzi, Valter, Giansalvatore Mecca, and Paolo Merialdo. 2001. “Roadrunner: Towards Automatic Data Extraction from Large Web Sites.” In VLDB, 1:109–18. http://www.vldb.org/conf/2001/P109.pdf.
  • Kushmerick, Nicholas. 1997. “Wrapper Induction for Information Extraction”. University of Washington. http://www.icst.pku.edu.cn/course/mining/11-12spring/%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE/10-01%20Wrapper%20Induction%20for%20Information%20Extraction.pdf.
  • Muslea, Ion, Steve Minton, and Craig Knoblock. 1998. “Stalker: Learning Extraction Rules for Semistructured, Web-Based Information Sources.” In Proceedings of AAAI-98 Workshop on AI and Information Integration, 74–81. http://www.aaai.org/Papers/Workshops/1998/WS-98-14/WS98-14-011.pdf.
  • Dalvi, Nilesh, Ashwin Machanavajjhala, and Bo Pang. 2012. “An Analysis of Structured Data on the Web.” Proceedings of the VLDB Endowment 5 (7): 680–91.