Archive for Октябрь 9th, 2012

Методы нормализации слов русского языка (09.10.12)

Нормализация слов естественных языков — приведение их к начальной форме — одна из проблем прикладной лингвистики, актуальная для информационного поиска, машинного перевода и других задач обработки текста. Как правило, задача нормализации разбивается на стемминг (поиск неизменяемой части слова) и синтез нормальной формы.
В докладе будут рассмотрены существующие методы нормализации естественных языков, имеющие реализацию для обработки русских слов.

Докладчик: Оксана Астапова

Материалы:

  1. Ilya Segalovich “A fast morphological algorithm with unknown word guessing induced by a dictionary for a web search engine”,  2003
  2. “Russian stemming algorithm” http://snowball.tartarus.org/algorithms/russian/stemmer.html
  3. А. Коваленко «Вероятностный морфологический анализатор русского и украинского языков» , 2002 http://www.keva.ru/stemka/stemka.html

Презентация с семинара (pdf)