Построение аннотированных леммами корпусов текстов с помощью Wiktionary (10.03.2015)

Лемматизация (приведение слова к канонической форме) применяется при обработке естественного языка и во многих других областях, которые касаются лингвистики в целом. Методы лемматизации основанные на машинном обучении нуждаются в больших тренировочных данных. Проблема отсутствия аннотированных леммами корпусов для многих языков может быть решена с помощью автоматического построения аннотированных корпусов из коллекции текстов.
В ходе доклада будет проиллюстрирован такой метод, основанный на Wiktionary.

Докладчик: Лариса Адамян

Пн	Вт	Ср	Чт	Пт	Сб	Вс
« Дек				Апр »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Управление данными и информационные системы

Научный семинар отдела Информационных систем Института системного программирования им. В.П. Иванникова РАН

Последние записи

Календарь