Исследовательский поиск научных публикаций (17.04.2018)

Современные поисковые системы хорошо подходят для поиска единичных фактов, конкретных документов, ответов на вопросы. Однако не всегда поисковые потребности пользователей так конкретны. Пользователь может точно не знать, что именно он хочет найти, может не понимать, пора ли закончить поиск или следует продолжать, анализ результатов поиска может требовать значительного времени. В таких случаях говорят о задаче исследовательского поиска (exploratory search). Эффективное решение задачи исследовательского поиска требует применения специфических инструментов, зачастую зависящих от домена. Интуитивно понятно, что поиск научных данных во многих случаях является исследовательским. Поиск в этом домене с одной стороны сталкивается с вызовами: сложность языка текстов, специфическая терминология, а с другой стороны, кроме текстов статей можно использовать метаданные (время и место публикации, авторов) и граф цитирования.

В докладе будут рассмотрены варианты постановки задачи исследовательского поиска, рассмотрены поисковые потребности ученых и формализована их связь с задачей исследовательского поиска. Будут рассмотрены инструменты исследовательского поиска и их реализации в современных системах поиска публикаций.

Доклад состоится 17.04.2018 в 18:00 в 110 комнате ИСП РАН.

Докладчик: Ярослав Недумов

Извлечение информации из Веб. Подход Wrapper Induction (25.02.14)

Интернет — повседневный источник самых разнообразных данных для множества людей уже многие годы. Поиск товаров и услуг, анализ отзывов на них — эти и многие другие варианты использования интернета могут быть автоматизированы. Однако, несмотря на то, что большая часть данных в интернете представлена в виде HTML разметки, это мало помогает автоматическому извлечению семантики. HTML веб-страниц написан таким образом, чтобы размещенная на ней информация была легко доступна человеку, но она не является машинно-читаемой. HTML — язык разметки, но не язык описания семантики. С начала 2000-х годов консорциумом WWW разрабатываются стандарты так называемого Semantic Web, однако они не нашли существенного применения на практике. Задача извлечения информации из Веб продолжает оставаться актуальной.

В докладе будет сделан обзор одного из подходов к автоматическому извлечению информации из Интернета: Wrapper Induction. Будут рассмотрены как классические, так и современные системы.

Докладчик: Ярослав Недумов

Презентация (pdf)

Chang, C.-H., Mohammed Kayed, R. Girgis, и Khaled F. Shaalan. «A survey of web information extraction systems». Knowledge and Data Engineering, IEEE Transactions on 18, № 10 (2006 г.): 1411–1428.
Ferrara, Emilio, Pasquale De Meo, Giacomo Fiumara, и Robert Baumgartner. «Web data extraction, applications and techniques: a survey». arXiv preprint arXiv:1207.0246 (2012 г.). http://arxiv.org/abs/1207.0246.
Furche, Tim, Georg Gottlob, Giovanni Grasso, Omer Gunes, Xiaoanan Guo, Andrey Kravchenko, Giorgio Orsi, Christian Schallhart, Andrew Sellers, and Cheng Wang. 2012. “DIADEM: Domain-Centric, Intelligent, Automated Data Extraction Methodology.” In Proceedings of the 21st International Conference Companion on World Wide Web, 267–70. http://dl.acm.org/citation.cfm?id=2188025.
Crescenzi, Valter, Giansalvatore Mecca, and Paolo Merialdo. 2001. “Roadrunner: Towards Automatic Data Extraction from Large Web Sites.” In VLDB, 1:109–18. http://www.vldb.org/conf/2001/P109.pdf.
Kushmerick, Nicholas. 1997. “Wrapper Induction for Information Extraction”. University of Washington. http://www.icst.pku.edu.cn/course/mining/11-12spring/%E5%8F%82%E8%80%83%E6%96%87%E7%8C%AE/10-01%20Wrapper%20Induction%20for%20Information%20Extraction.pdf.
Muslea, Ion, Steve Minton, and Craig Knoblock. 1998. “Stalker: Learning Extraction Rules for Semistructured, Web-Based Information Sources.” In Proceedings of AAAI-98 Workshop on AI and Information Integration, 74–81. http://www.aaai.org/Papers/Workshops/1998/WS-98-14/WS98-14-011.pdf.
Dalvi, Nilesh, Ashwin Machanavajjhala, and Bo Pang. 2012. “An Analysis of Structured Data on the Web.” Proceedings of the VLDB Endowment 5 (7): 680–91.

Автоматизация процесса нормализации информации при внедрении систем управления основными данными (12.03.2013)

Доклад посвящен результатам совместного проекта с фирмой 1С о решении задачи нормализации информации.
Нормализация информации — сложная дорогостоящая задача, решаемая с помощью привлечения большого количества экспертов. Автоматизация их работы может позволить существенно снизить издержки. Основная возникающая при этом проблема — отсутствие формальных описаний знаний экспертов, а также формальной постановки решаемой ими задачи. Существующие средства позволяют упростить для экспертов рутинные подзадачи, которые хорошо формализуются (например поиск, в том числе нечеткий) однако более сложные операции, составляющие основную сложность работы эксперта, не автоматизированы никак.
В докладе будет подробно рассказано о задаче нормализации, а также о том, какие ее подзадачи всё же поддаются автоматизации и каким образом.

Докладчик: Ярослав Недумов

Материалы

Леонид Черняк. Интеграция данных: синтаксис и семантика. Открытые системы, 10, 2009.
ME Califf and RJ Mooney. Relational learning of pattern-match rules for information extraction. In: Proceedings of the Sixteenth National Conference on Artificial Intelligence (AAAI-99), Menlo Park, CA, American Association for Artificial Intelligence, pages 328-334, 1999
Sofiane Ouaguenouni, Kumar Sivaraman, and Terry Braun. Identity resolution and data quality algorithms for master person index. An Oracle White Paper, August 2010.
Erhard Rahm and Hong Hai Do. Data cleaning: Problems and current approaches. IEEE Data Engineering Bulletin, 23:2000, 2000.

Презентация с семинара

Система обработки текстов Texterra (13.11.2012)

Texterra — разрабатываемый в ИСП РАН инструмент для обработки и семантического анализа текстов. В ходе доклада будут показаны некоторые возможности системы Texterra. Кроме того будут рассмотрены архитектура и принцип работы системы Texterra, а также один из способов получения базы знаний для нее.

Докладчик: Александр Бабаков

Материалы:

Viktor Ivannikov, Denis Turdakov, Yaroslav Nedumov. Fast Text Annotation with Linked Data. Eighth International Conference on Computer Science and Information Technologies 26 – 30 September, 2011, Yerevan, Armenia
D. Turdakov. Word sense disambiguation methods. Programming and Computer Software, Vol. 36, Issue 6
M. Grineva, M. Grinev, D. Lizorkin. Extracting Key Terms From Noisy and Multitheme Documents. WWW2009: 18th International World Wide Web Conference

Презентация с семинара

Алгоритм машинного обучения Random Forest (02.10.12)

Доклад посвящен одному из алгоритмов машинного обучения — случайному лесу (Random Forest). Случайный лес — метод, предложенный Лео Брейманом и Адель Катлер, заключающийся в использовании комитета (ансамбля) решающих деревьев в задачах классификации, регрессии и кластеризации. Random Forest способен эффективно обрабатывать данные с большим числом признаков и классов, его качество сравнимо с SVM и бустингом. Он отличается высокой параллелизуемостью и масштабируемостью.

Докладчик: Андрей Гомзин

Материалы:

http://ru.wikipedia.org/wiki/Random_forest
Andy Liaw and Matthew Wiener. Random Forest: A Classification and Regression Tool for сompound Classification and QSAR Modeling.
Leo Breiman. Random Forests.

Презентация с семинара (pdf)

Машины опорных векторов (8.11.11)

Машины Опорных Векторов — это семейство алгоритмов классификации вида «обучение с учителем». В докладе будут рассмотрены:

Определение оптимальной гиперплоскости в случае линейно разделимых и произвольных данных,
SVM как задача квадратичного программирования,
Ядровые функции и ядровой переход.

Все необходимые теоремы и понятия алгебры и оптимизации будут введены по ходу доклада.

Докладчик: Алексей Сильвестров

Литература:

http://cs229.stanford.edu/notes/cs229-notes2.pdf — Стенфордский курс Machine Learning
http://www.machinelearning.ru/wiki/images/2/25/SMAIS11_SVM.pdf — с/к СМАИС ВМК МГУ

Презентация с семинара (pptx)

Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Key-Value storage — это быстрые распределенные NoSQL хранилища данных, предоставляющие доступ данным по id. Project Voldemort — распределенная база данных типа ключ-значение, предназначенная для горизонтального масштабирования на большом количестве серверов. Voldemort успешно используется компанией LinkedIn. — Riak — написанное на языке Erlang хранилище, используемое множеством компанией, например AOL, Mozilla Foundation. Amazon Dynamo — основа системы хранения сервисов в Amazon, которым достаточно простого доступа к данным по ключу.
В докладе рассмотрены механизмы и архитектура каждой модели и их сравнение.

Докладчик: Зуев Анатолий

презентация с семинара (pdf)

Методы извлечения ключевых слов (5.10.10)

В докладе делается обзор методов извлечения ключевых слов из текстов. Рассматриваются проблемы возникающие при решении задачи. Разбираются общие подходы к их решению и анализируется несколько реализованных методов, в том числе лучших по итогам SemEval-2010.

Докладчик: Рязанцев Дмитрий

Материалы:

Lopez, Patrice and Laurent Romary, 2010b. HUMB: Automatic Key Term Extraction from Scientic Articles in GROBID. In SemEval 2010 Workshop. Uppsala, Su`de. (PDF)
Samhaa R. El-Beltagy; Ahmed Rafea KP-Miner: Participation in SemEval-2 (PDF)
Olena Medelyan, Eibe Frank, and Ian H. Witten. Human-competitive tagging using automatic keyphrase extraction (2009) (PDF)
Eibe Frank and Gordon W. Paynter and Ian H. Witten. Domain-Specific Keyphrase Extraction (PDF)
R. Mihalcea and A. Csomai. Wikify!: linking documents to encyclopedic knowledge (2007) (PDF)

Презентация с семинара (ppt)

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Posts Tagged ‘Недумов Ярослав’

Исследовательский поиск научных публикаций (17.04.2018)

Извлечение информации из Веб. Подход Wrapper Induction (25.02.14)

Автоматизация процесса нормализации информации при внедрении систем управления основными данными (12.03.2013)

Система обработки текстов Texterra (13.11.2012)

Алгоритм машинного обучения Random Forest (02.10.12)

Машины опорных векторов (8.11.11)

Распределённые key-value хранилища: Amazon Dynamo, Project Voldemort, Riak

Методы извлечения ключевых слов (5.10.10)