Как выбрать лигатуру для «FI» в Java (и др.)

У нас есть система, которая анализирует PDF-файлы и извлекает текст внутри для индексации и тому подобного. Одна проблема, с которой мы столкнулись, заключается в том, что Illustrator устанавливает слова, содержащие «fi», чтобы использовать лигатуру для fi (single glyph ).

Например, эта строка...

"скамья и богатая стеклокерамическая плитка".

В моем отладчике Java отображается вот так

"Эта скамейка и керамическая плитка с богатой стекловолокном".

Похоже, что \u001F — это код символа, который файлы Adobe PDF используют для лигатуры «fi». Очевидно, я мог бы заменить вхождения \u001F на «fi», но знает ли кто-нибудь надежный способ справиться с этим и подобными случаями?

5
задан benstpierre 25 April 2012 в 22:36
поделиться