У меня есть текст, который был сгенерирован другой системой. Он объединил несколько слов вместе, что, как я полагаю, было своего рода побочным продуктом переноса слов. Так что что-то простое, например, «собака», объединяется в «собака».
Я проверил строки ascii и unicode, чтобы увидеть, нет ли там какого-то невидимого символа, но его не было. Сложная проблема заключается в том, что это медицинский текст, а корпус для проверки недоступен. Итак, реальный пример: «... тест для исключения SARS по сравнению с пневмонией» заканчивается как «... против пневмонии. '
У кого-нибудь есть предложения по их поиску и разделению?