Archive for Март 9th, 2015

Построение аннотированных леммами корпусов текстов с помощью Wiktionary (10.03.2015)

Лемматизация (приведение слова к канонической форме) применяется при обработке естественного языка и во многих других областях, которые касаются лингвистики в целом. Методы лемматизации основанные на машинном обучении нуждаются в больших тренировочных данных. Проблема отсутствия аннотированных леммами корпусов для многих языков может быть решена с помощью автоматического построения аннотированных корпусов из коллекции текстов.
В ходе доклада будет проиллюстрирован такой метод, основанный на Wiktionary.

Докладчик: Лариса Адамян