Я думаю, что Вы сделали правильную вещь. По моему опыту, разработчики XSLT среди очень самыми твердыми нанять, потому что это - язык, который никогда не завоевывал популярность ни один с Веб-разработчиками, ни со случайными программистами.
, Таким образом, Вы заканчиваете тем, что имели необходимость заплатить "опытному программисту, который знает язык вне основной" премии, но для языка, который является, вероятно, не что фаворит программиста.
В настоящее время существует три варианта OCR:
Я редко использую OCR, но я обнаружил, что трата 150 долларов на коммерческое программное обеспечение намного компенсирует потерянное время.
Печатный текст и рукописный обычно проще для OCR, однако все зависит от исходного изображения, я обычно считаю, что захват в формате PNG с уменьшенными цветами (оттенки серого - это лучше всего) с некоторой ручной очисткой (удалите все шумы изображения из-за сканирования и т. д.).
Большинство оптических распознаваний текста аналогичны по производительности и точности. Лучше всего подойдет OCR с возможностью обучения / исправления.
В целом я обнаружил, что FineReader дает очень хорошие результаты. Обычно для всех продуктов доступны пробные версии. Попробуйте как можно больше.
Теперь исходный код программы может быть непростым:
OCRopus также является хорошим вариантом с открытым исходным кодом. Но, как и с Tesseract, для его эффективного использования и интеграции требуется довольно крутая кривая обучения.