Лемматизация (приведение слова к канонической форме) применяется при обработке естественного языка и во многих других областях, которые касаются лингвистики в целом. Методы лемматизации основанные на машинном обучении нуждаются в больших тренировочных данных. Проблема отсутствия аннотированных леммами корпусов для многих языков может быть решена с помощью автоматического построения аннотированных корпусов из коллекции текстов.
В ходе доклада будет проиллюстрирован такой метод, основанный на Wiktionary.

Докладчик: Лариса Адамян