Пользовательский словарь для Tesseract

В настоящее время я работаю над проектом для Android с использованием tesseract OCR. Я надеялся улучшить результаты, предоставляемые пользователю, добавив словарь. Согласно http://code.google.com/p/tesseract-ocr/wiki/FAQ, лучший способ сделать это —

заменить tessdata/eng.user-words на свой собственный список слов, в том же формат - текст UTF8, одно слово в строке.

Однако в папке tessdata нет файла eng.user-words, я предполагаю, что если я просто создам текстовый файл со своим словарем, он никогда не будет использоваться..

У кого-нибудь был подобный опыт? и знает что делать? Любой совет будет большим подспорьем.

11
задан TomSelleck 5 March 2012 в 14:19
поделиться