исправление обработки естественного языка для объединенных слов

У меня есть текст, который был сгенерирован другой системой. Он объединил несколько слов вместе, что, как я полагаю, было своего рода побочным продуктом переноса слов. Так что что-то простое, например, «собака», объединяется в «собака».

Я проверил строки ascii и unicode, чтобы увидеть, нет ли там какого-то невидимого символа, но его не было. Сложная проблема заключается в том, что это медицинский текст, а корпус для проверки недоступен. Итак, реальный пример: «... тест для исключения SARS по сравнению с пневмонией» заканчивается как «... против пневмонии. '

У кого-нибудь есть предложения по их поиску и разделению?

6
задан rich 15 March 2011 в 23:41
поделиться