У нас есть система, которая анализирует PDF-файлы и извлекает текст внутри для индексации и тому подобного. Одна проблема, с которой мы столкнулись, заключается в том, что Illustrator устанавливает слова, содержащие «fi», чтобы использовать лигатуру для fi (single glyph ).
Например, эта строка...
"скамья и богатая стеклокерамическая плитка".
В моем отладчике Java отображается вот так
"Эта скамейка и керамическая плитка с богатой стекловолокном".
Похоже, что \u001F — это код символа, который файлы Adobe PDF используют для лигатуры «fi». Очевидно, я мог бы заменить вхождения \u001F на «fi», но знает ли кто-нибудь надежный способ справиться с этим и подобными случаями?