Астраханцев Никита Александрович — Управление данными и информационные системы

E-mail: astrakhantsev@ispras.ru

Образование:

специалист, ВМК МГУ, кафедра СП, 2011
аспирант, ВМК МГУ, кафедра СП, 2014
кандидат физико-математических наук (диссертация), ИСП РАН, 2015

Научные интересы

обработка текстов на естественном языке (natural language processing)
- обработка слабоструктурированных данных: текстовых таблиц, таблиц БД и т.п.
- извлечение информации (information extraction)
- автоматическая и полуавтоматическая корректура (text-proofing)
машинное обучение
- обучение с учителем (supervised learning)
- частичное обучение (semi-supervised learning)
- активное обучение (active learning)
- автоматическое машинное обучение (automatic machine learning)

Публикации: профиль на GS

Выпускные квалификационные / дипломные работы студентов прошлых лет:

Коваль И. И. «Исследование и разработка методов определения индекса удобочитаемости текста». ФУПМ МФТИ, 2015.
Малахов Д. П. «Методы автоматической рубрикации текстовых документов предметной области». ВМК МГУ, 2015. (pdf)
Федоренко Д. Г. «Исследование и разработка методов разрешения лексической многозначности на основе неполной базы знаний». ВМК МГУ, 2013. (pdf)
Лагутенко А.Ф. «Исследование и разработка методов извлечения отношений из текста с целью восстановления значений атрибутов в частично заполненных таблицах». ФУПМ МФТИ, 2012.

Темы работ 2016

Методы аспектного анализа вклада научных статей — Methods for aspect-based analysis of scientific articles contributions

Многие научные статьи разделяются на типы: обзорные, экспериментальные сравнения, предложение новых методов. При этом экспериментальная оценка присутствует в большинстве работ, предлагающих новый метод, а обзор существующих работ присутствует в том или ином виде в каждой (хорошей) статье — более того, зачастую такой обзор в статье, предлагающей новый метод, может быть лучше, чем в обзорной статье. Для некоторых предметных областей может не быть актуальных обзоров.
Таким образом, представляет практический интерес автоматическая оценка вклада статьи, т. е. насколько хорошо в статье обозреваются существующие работы, или проводится экспериментальное сравнение, или описывается новый метод.

Baseline method: набор эвристик для каждого типа вклада: например, для обзора можно анализировать объем части Related work, количество процитированных работ, объем/содержательность текста, предваряющего цитату (например, в плохих обзорах часто следует цепочка цитирований без анализа, что именно цитируется); для вклада «Предлагаемый метод» — анализировать, насколько формально описание (псевдокод, список и т. п.).

Возможные развития темы: адаптация для русского языка, для курсовых и дипломов.

Задачи:
1. Анализ существующих работ (10%)
2. Сбор и разметка данных (20%)
3. Разработка метода на основе существующих работ (20%)
4. Реализация (20%)
5. Анализ ошибок (15%)
6. Подготовка текста и презентации (15%)

Литература
1. Turunen T. Introduction to Scientific Writing Assistant (SWAN)–Tool for Evaluating the Quality of Scientific Manuscripts //Computer Science. – 2013. (диплом магистра)
2. Kinnunen T. et al. SWAN-scientific writing AssistaNt: a tool for helping scholars to write reader-friendly manuscripts //Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics. – Association for Computational Linguistics, 2012. – С. 20-24.
3. Athar A. Sentiment analysis of scientific citations //University of Cambridge, Computer Laboratory, Technical Report. – 2014. – №. UCAM-CL-TR-856.
4. Athar A. Sentiment analysis of citations using sentence structure-based features //Proceedings of the ACL 2011 student session. – Association for Computational Linguistics, 2011. – С. 81-87.

Методы извлечения названий использованных методов из научных статей — Methods for used method names extraction from scientific articles

Иногда при исследовании требуется узнать, какие методы используются в заданной предметной области (заданной набором статей, например) или просто в конкретных статьях, не тратя времени на чтение всех статей.
Автоматическое извлечение использованных методов (в том числе названий программных библиотек), даже не обладающее 100% точностью и полнотой, может помочь сэкономить время.

Осторожно: рискованно для ВКР из-за размытости понятия «метод» и вызванных этим возможных сложностей с защитой.

Baseline method: bootstrap, а именно: задать вручную несколько названий методов и шаблонов (управляющих глаголов) типа
we apply [method name] for
[method name] is used for
извлечь подходящие под шаблоны названия методов, найти шаблоны, в которых участвуют эти методы, повторить.

Возможные развития темы: адаптация для русского языка, для курсовых и дипломов.

Задачи:
1. Анализ существующих работ (15%)
2. Сбор и разметка данных (15%)
3. Разработка метода на основе существующих работ (20%)
4. Реализация (вероятнее всего, на Python) (20%)
5. Анализ ошибок (15%)
6. Подготовка текста и презентации (15%)

Литература
1. Navigli, R., & Velardi, P. (2010, July). Learning word-class lattices for definition and hypernym extraction. In Proceedings of the 48th annual meeting of the association for computational linguistics (pp. 1318-1327). Association for Computational Linguistics.
2. Espinosa-Anke L., Ronzano F., Saggion H. Weakly supervised definition extraction //Angelova G, Bontcheva K, Mitkov R, editors. International Conference on Recent Advances in Natural Language Processing 2015 (RANLP 2015); 2015 Sept 7-9; Hissar, Bulgaria. Stroudsburg: ACL (Association for Computational Linguistics); 2015. p. 176-85. – ACL (Association for Computational Linguistics), 2015.

Автоматическая оценка последовательности изложения научных текстов — Automatic evaluation of fluidity for scientific texts

«Fluidity, in general, refers to how easily a passage of text can be read. The many benefits of fluid text include faster reading, better reading comprehension, increased reader satisfaction, and better possibilities for having the text published (Lebrun, 2011; Gopen, 2004). Fluidity also decreases the amount of interpretations readers get from the text, thus increasing the possibility that readers will interpret text the way writer meant it to be interpreted.»[1]

В работе Лебрана и Гопена, которая стала основой для SWANа [1][2], анализируется, в каких случаях последовательность изложения “хорошая” внутри предложения (например, подлежащее не должно быть удалено от сказуемого; новая информация должна подаваться в конце предложения и т.п.) и между предложениями (например, основная тема предложения должны быть затронута в предыдущем предложении).

Цель работы состоит в реализации метрик оценки последовательности изложения и разработке методологии тестирования качеств самих метрик.
Псевдокод методов, которые с большой вероятностью предстоит реализовать, см. в Приложении 3 диплома[1].

Возможные развития темы: адаптация для русского (возможно, понадобится адаптировать для имеющихся библиотек), для курсовых и дипломов

Задачи:
1. Анализ существующих работ (20%)
2. Сбор и разметка данных (10%)
3. Разработка метода на основе существующих работ (10%)
4. Реализация (вероятнее всего, на Python) (25%)
5. Анализ ошибок (20%)
6. Подготовка текста и презентации (15%)

Литература

Turunen T. Introduction to Scientific Writing Assistant (SWAN)–Tool for Evaluating the Quality of Scientific Manuscripts //Computer Science. – 2013. (диплом магистра)
Kinnunen T. et al. SWAN-scientific writing AssistaNt: a tool for helping scholars to write reader-friendly manuscripts //Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics. – Association for Computational Linguistics, 2012. – С. 20-24.

Уже выбранные темы (выбрать нельзя)

Методы извлечения определений из научных текстов — Methods for definition extraction from scientific texts

В научных текстах часто вводятся новые понятия явным образом — путем определений, где обычно описывается сужением какого понятия является новое.
Такие определения полезны сами по себе — например, можно искать определения незнакомых терминов; кроме того, автоматическое извлечение определений позволит извлекать новые понятия и строить иерархии понятий.

Baseline method: bootstrap, а именно: задать вручную несколько шаблонов вида
[noun phrase] is a [noun phrase]
извлечь подходящие именные фразы, найти шаблоны, в которых участвуют эти именные фразы, повторить.

Возможные развития темы: адаптация для русского языка.

Задачи:
1. Анализ существующих работ (20%)
2. Сбор и разметка данных (15%)
3. Разработка метода на основе существующих работ (20%)
4. Реализация (вероятнее всего, на Python) (15%)
5. Анализ ошибок (15%)
6. Подготовка текста и презентации (15%)

Литература
1. Navigli, R., & Velardi, P. (2010, July). Learning word-class lattices for definition and hypernym extraction. In Proceedings of the 48th annual meeting of the association for computational linguistics (pp. 1318-1327). Association for Computational Linguistics.
2. Espinosa-Anke L., Ronzano F., Saggion H. Weakly supervised definition extraction //Angelova G, Bontcheva K, Mitkov R, editors. International Conference on Recent Advances in Natural Language Processing 2015 (RANLP 2015); 2015 Sept 7-9; Hissar, Bulgaria. Stroudsburg: ACL (Association for Computational Linguistics); 2015. p. 176-85. – ACL (Association for Computational Linguistics), 2015.

Методы кластеризации научных текстов — Methods for scientific texts clustering

В настоящее время количество научных статей настолько велико, что прочитать все из них даже в одной узкой области знаний не представляется возможным. Нахождение групп статей, посвященных одной теме, позволило бы читателям легче ориентироваться в огромном количестве существующей литературы и затрачивать меньше усилий для нахождения необходимых публикаций. Для решения этих задач необходимо уметь автоматически кластеризовать научные статьи.

Baseline method: k-means над векторами, полученными путем перевод текста в векторное пространство с помощью doc2vec.

Возможные развития темы: адаптация для русского языка.

Задачи:
1. Анализ существующих работ (25%)
2. Сбор и разметка данных (10%)
3. Реализация существующих методов (вероятнее всего, на Python) (20%)
4. Анализ ошибок (15%)
5. Разработка метода на основе существующих работ и анализа ошибок (15%)
6. Подготовка текста и презентации (15%)

Литература
1. Aggarwal C. C., Zhai C. X. A survey of text clustering algorithms //Mining text data. – Springer US, 2012. – С. 77-128.
2. Dai A. M., Olah C., Le Q. V. Document embedding with paragraph vectors //arXiv preprint arXiv:1507.07998. – 2015.
3. Chiu T., Fang D., Chen J. et al. A robust and scalable clustering algorithm for mixed type attributes in large database environment // Proceedings of the seventh ACM SIGKDD international conference on knowledge discovery and data mining / ACM. 2001. P. 263–268.

Темы работ прошлых лет (выбрать нельзя)

Анализ тональности и значимости научных цитат / Significance and sentiment analysis of scientific citations

В научных статьях другие работы могут цитироваться с разными целями и разной значимостью: некоторые цитаты соответствуют подходам, положенным в основу цитирующей работе; некоторые цитаты делаются из политических или конъюнктурных соображений (обмен цитатами), некоторые цитаты просто добавляются «для веса».
При этом «Existing bibliometric measures like H-Index (Hirsch, 2005) and adapted graph ranking algorithms like PageRank (Radev et al., 2009) treat all citations
as equal. However, Bonzi (1982) argued that if a cited work is criticised, it should consequently carry lower or even negative weight for bibliometric
measures. Automatic citation sentiment detection is a prerequisite for such a treatment.»[2]

Возможные развития темы: определение контекста цитаты (какая именно часть текста относится к цитате); определение цели цитирования (например: сравнение, использованный метод, и т.п.)

Задачи (и приблизительное соотношение усилий):
1. Анализ существующих работ (20%)
2. Сбор данных (5%)
3. Разработка метода на основе существующих работ (10%)
4. Реализация на Scala (предпочтительно на Apache Spark) (35%)
5. Анализ ошибок (10%)
6. Подготовка текста и презентации (20%)

Литература
1. Athar A. Sentiment analysis of scientific citations //University of Cambridge, Computer Laboratory, Technical Report. – 2014. – №. UCAM-CL-TR-856.
2. Athar A. Sentiment analysis of citations using sentence structure-based features //Proceedings of the ACL 2011 student session. – Association for Computational Linguistics, 2011. – С. 81-87.

Автоматическая оценка разделов научных текстов — Automatic evaluation of sections of scientific texts

В 2011 году Lebrun формализовал множество метрик, предназначенных для оценки качества стандартных разделов научных статей: названия, аннотации, введения и заключения. «These metrics are tested on 960 scientists since 1997 (Kinnunen
et al., 2012)»[1]

Основная цель работы состоит в реализации этих метрик, их адаптации для курсовых и дипломов на русском языке, а также разработке методологии тестирования качеств самих метрик.

Возможные развития темы: остальные разделы научных текстов, в том числе специфичные для определенных областей, например Computer Science.

Задачи (и приблизительное соотношение усилий):
1. Анализ существующих работ (10%)
2. Сбор и разметка данных (25%)
3. Адаптация метрик для курсовых/дипломов и русского языка (20%)
4. Реализация (вероятнее всего, на Python) (15%)
5. Анализ ошибок (10%)
6. Подготовка текста и презентации (20%)

Реализация алгоритмов частичного обучения в Apache Spark MLLib / Implementation of algorithms for semi-supervised learning in Apache Spark MLLib

Алгоритмы частичного обучения, в том числе обучения на положительных и неразмеченных примерах, используются во многих практических задачах и особенно эффективны при наличии очень больших объемов данных (как правило, неразмеченных). При этом в Apache Spark отсутствует реализация таких алгоритмов.

Основная цель работы состоит в анализе этих алгоритмов, их реализации на фреймворке Spark с использованием библиотеки Mllib и коммите в эту библиотеку.

Задачи (и приблизительное соотношение усилий):
1. Анализ методов частичного обучения (20%)
2. Реализация нескольких методов на Scala с использованием библиотеки MLLib, включая тесты и сравнение качества (45%)
3. Коммит в саму библиотеку MLLib или spark-packages (15%)
4. Подготовка текста и презентации (20%)

Литература
1. en.wikipedia.org/wiki/Semi-supervised_learning
2. Zhu, Xiaojin. Semi-supervised learning literature survey. Computer Sciences, University of Wisconsin-Madison (2008). (наиболее релевантны разделы 3, 4, 11.2)
3. Contributing to Spark