Я ищу альтернативу C / C ++ для среды Apache Tika , основанной на Java. В частности, я ищу основные данные файлов и извлечение структурированного текста в рамках одной платформы. После некоторого поиска в Интернете и просмотр самое близкое, что у меня есть, это GNU libextractor и набор отдельных файловых фильтров, которые анализируют документы для извлечения текстовых данных (pdftoext, xls2csv ..etc)
Кто-нибудь может порекомендовать хорошую библиотеку, сопоставимую с Apache Tika?
Спасибо