Альтернатива C / C ++ для Apache Tika

Я ищу альтернативу C / C ++ для среды Apache Tika , основанной на Java. В частности, я ищу основные данные файлов и извлечение структурированного текста в рамках одной платформы. После некоторого поиска в Интернете и просмотр самое близкое, что у меня есть, это GNU libextractor и набор отдельных файловых фильтров, которые анализируют документы для извлечения текстовых данных (pdftoext, xls2csv ..etc)

Кто-нибудь может порекомендовать хорошую библиотеку, сопоставимую с Apache Tika?

Спасибо

7
задан Nik 3 June 2011 в 22:11
поделиться