Говорят, что Java в 10 раз быстрее python с точки зрения производительности. Который' То, что я вижу из тестов. Но что действительно мешает Java, так это время запуска JVM.
Это тест, который я сделал:
$time xlsx2csv.py Types\ of\ ESI\ v2.doc-emb-Package-9
...
<output skipped>
real 0m0.085s
user 0m0.072s
sys 0m0.013s
$time java -jar -client /usr/local/bin/tika-app-0.7.jar -m Types\ of\ ESI\ v2.doc-emb-Package-9
real 0m2.055s
user 0m2.433s
sys 0m0.078s
Тот же файл, 12 КБ встроенный файл XLSX внутри Docx и Python в 25 раз быстрее !! WTH !!
Для Java требуется 2,055 секунды.
Я знаю, что это все из-за времени запуска, но мне нужно вызвать его через сценарий, чтобы проанализировать некоторые документы, которые я не хочу повторно -изобрести колесо в python.
Но что касается синтаксического анализа более 10k файлов, это просто непрактично ..
В любом случае, чтобы ускорить его (я уже пробовал опцию -client, и она только ускоряется совсем немного (20%) )).
Еще одна идея? Запустить его как долго работающий демон, общаться с использованием сокетов UDP или Linux-ICP локально?