Нужен хороший OCR для печатного листинга исходного кода, каких-либо идей?

Я думаю, что Вы сделали правильную вещь. По моему опыту, разработчики XSLT среди очень самыми твердыми нанять, потому что это - язык, который никогда не завоевывал популярность ни один с Веб-разработчиками, ни со случайными программистами.

, Таким образом, Вы заканчиваете тем, что имели необходимость заплатить "опытному программисту, который знает язык вне основной" премии, но для языка, который является, вероятно, не что фаворит программиста.

10
задан Trevor Boyd Smith 11 December 2009 в 14:54
поделиться

4 ответа

В настоящее время существует три варианта OCR:

  • Abbee FineReader и OminPage . Оба являются коммерческими продуктами, которые примерно равны, когда дело доходит до функций и результатов распознавания. Я не могу много сказать об OmniPage, но FineReader действительно поддерживает чтение исходного кода (например, у него есть языковая библиотека Java).
  • Лучшим механизмом OSS OCR является tesseract . Его намного сложнее использовать, вам, вероятно, придется обучить его вашему языку.

Я редко использую OCR, но я обнаружил, что трата 150 долларов на коммерческое программное обеспечение намного компенсирует потерянное время.

6
ответ дан 3 December 2019 в 22:37
поделиться

Печатный текст и рукописный обычно проще для OCR, однако все зависит от исходного изображения, я обычно считаю, что захват в формате PNG с уменьшенными цветами (оттенки серого - это лучше всего) с некоторой ручной очисткой (удалите все шумы изображения из-за сканирования и т. д.).

Большинство оптических распознаваний текста аналогичны по производительности и точности. Лучше всего подойдет OCR с возможностью обучения / исправления.

1
ответ дан 3 December 2019 в 22:37
поделиться

В целом я обнаружил, что FineReader дает очень хорошие результаты. Обычно для всех продуктов доступны пробные версии. Попробуйте как можно больше.

Теперь исходный код программы может быть непростым:

  • ведущий пробел: возможно, почтовый индекс красивый процесс печати может помочь
  • подчеркивания и пунктуации: возможно, хороший продукт можно обучить этому
1
ответ дан 3 December 2019 в 22:37
поделиться

OCRopus также является хорошим вариантом с открытым исходным кодом. Но, как и с Tesseract, для его эффективного использования и интеграции требуется довольно крутая кривая обучения.

1
ответ дан 3 December 2019 в 22:37
поделиться
Другие вопросы по тегам:

Похожие вопросы: