Есть ли в NLTK какие-либо классы для нормализации и канонизации текста?

Question

Есть ли в NLTK какие-либо классы для нормализации и канонизации текста?

Преобладающее количество документации и примеров NLTK посвящено лемматизации и основанию, но очень мало по таким вопросам нормализации, как:

преобразование всех букв в нижний или верхний регистр
удаление знаков препинания
преобразование чисел в слова
удаление ударных знаков и других диакритических знаков
расширение аббревиатур
удаление стоп-слов или «слишком распространенных» слов
канонизация текста (опухоль = опухоль, это = она есть)

Укажите, пожалуйста, где в НЛТК копать. Любые эквиваленты NLTK (JAVA или любые другие) для вышеупомянутых целей приветствуются. Спасибо.

UPD . Я написал библиотеку нормализации текста на Python для преобразования текста в речь https://github.com/soshial/text-normalization . Это может подойти и вам.

19

python nltk

задан soshial 7 May 2013 в 13:57

0 ответов

Другие вопросы по тегам:

python nltk

Есть ли в NLTK какие-либо классы для нормализации и канонизации текста?

0 ответов

Похожие вопросы: