Сегментация слов и группировка с дефисом и апострофом слова из текста

Мне нужно сегментировать слова из текста. Иногда слова с дефисом пишутся без дефисов, а слова с апострофом пишутся без апострофа. Существуют также похожие проблемы, такие как разные проблемы с написанием одних и тех же слов (например, цвет, цвет) или одного слова, которое написано с пробелами между ними (например: до, до, пробел, пробел). Мне нужно сгруппировать эти варианты как одно представление и вставить его в набор / хэш-карту или другое место. Также могут быть проблемы с акцентными символьными словами, написанными без диакритических знаков (хотя я с ними еще не сталкивался).В настоящее время и вырезание слов по любому пробельному символу и каждому не буквенно-цифровому, а затем удаление их и пропуск стоп-слов.

Эти индексы позже будут использоваться для проверки схожести документов и поиска и т. Д. Есть предложения, как я могу решить эти проблемы? Я придумал идею сопоставить отсканированное слово со списком слов, но проблема в том, что собственные существительные и слова, не входящие в словарь, будут опущены.

Информация: мой код находится на Java

5
задан Ruggiero Spearman 13 March 2012 в 20:19
поделиться