обработка изображений документа

Я работаю над приложением для обработки изображений документа (в основном счетов-фактур) и, в основном, я хотел бы преобразовать определенные области интереса в XML -структурировать, а затем классифицировать документ на основе этих данных. В настоящее время я использую ImageJ для анализа изображения документа и Asprise / tesseract для распознавания текста.

Теперь я ищу что-нибудь, что упростило бы разработку. В частности, я ищу что-то для автоматического выравнивания изображения документа и анализа структуры документа (например, преобразование изображения в структуру дерева квадрантов для упрощения обработки). Хотя я предпочитаю Java и ImageJ, меня интересуют любые библиотеки / код / ​​документы, независимо от языка программирования, на котором они написаны.

Хотя система, над которой я работаю, должна, насколько это возможно, автоматически обрабатывать данные, пользователь должен следить за результатами и, при необходимости, исправьте классификацию, предложенную системой.Поэтому мне интересно использовать методы машинного обучения для достижения более надежных результатов. Когда обрабатываются аналогичные документы, например счета-фактуры конкретной компании, ее структура обычно одинакова. Если пользователь ранее исправлял данные в документах компании, эти исправления следует учитывать в будущем. У меня ограниченные познания в методах машинного обучения, и я хотел бы знать, как я могу реализовать свою идею.

11
задан Pedro 9 November 2011 в 00:24
поделиться