Нормализация слов естественных языков — приведение их к начальной форме — одна из проблем прикладной лингвистики, актуальная для информационного поиска, машинного перевода и других задач обработки текста. Как правило, задача нормализации разбивается на стемминг (поиск неизменяемой части слова) и синтез нормальной формы.
В докладе будут рассмотрены существующие методы нормализации естественных языков, имеющие реализацию для обработки русских слов.
Докладчик: Оксана Астапова
Материалы:
- Ilya Segalovich “A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine”, 2003
- “Russian stemming algorithm” http://snowball.tartarus.org/algorithms/russian/stemmer.html
- А. Коваленко «Вероятностный морфологический анализатор русского и украинского языков» , 2002 http://www.keva.ru/stemka/stemka.html
Презентация с семинара (pdf)