Есть ли в NLTK какие-либо классы для нормализации и канонизации текста?

Преобладающее количество документации и примеров NLTK посвящено лемматизации и основанию, но очень мало по таким вопросам нормализации, как:

  • преобразование всех букв в нижний или верхний регистр
  • удаление знаков препинания
  • преобразование чисел в слова
  • удаление ударных знаков и других диакритических знаков
  • расширение аббревиатур
  • удаление стоп-слов или «слишком распространенных» слов
  • канонизация текста (опухоль = опухоль, это = она есть)

Укажите, пожалуйста, где в НЛТК копать. Любые эквиваленты NLTK (JAVA или любые другие) для вышеупомянутых целей приветствуются. Спасибо.

UPD . Я написал библиотеку нормализации текста на Python для преобразования текста в речь https://github.com/soshial/text-normalization . Это может подойти и вам.

19
задан soshial 7 May 2013 в 13:57
поделиться