Использование Ruby и Ubuntu с оптическим распознаванием символов

Вот хорошая процедура сброса любой последовательности к 0 от гуру Oracle Tom Kyte . Большое обсуждение за и против в ссылках ниже также.

tkyte@TKYTE901.US.ORACLE.COM> 
create or replace
procedure reset_seq( p_seq_name in varchar2 )
is
    l_val number;
begin
    execute immediate
    'select ' || p_seq_name || '.nextval from dual' INTO l_val;

    execute immediate
    'alter sequence ' || p_seq_name || ' increment by -' || l_val || 
                                                          ' minvalue 0';

    execute immediate
    'select ' || p_seq_name || '.nextval from dual' INTO l_val;

    execute immediate
    'alter sequence ' || p_seq_name || ' increment by 1 minvalue 0';
end;
/

От этой страницы: Динамический SQL для сброса значения последовательности
Другое хорошее обсуждение также здесь: , Как сбросить последовательности?

5
задан ryan 9 December 2009 в 21:58
поделиться

2 ответа

GOCR поначалу кажется хорошим выбором, но, судя по тому, что я могу судить из своего собственного «исследования», качество не вполне достаточно для повседневного использования. Возможно, это могло привести к проблеме, в зависимости от входного изображения. Если у вас не получается, попробуйте «новую» функцию Документов Google, который позволяет загружать изображения для OCR. Затем вы можете получить результаты с помощью некоторого API Google (их много, я использую gdata-ruby-util , который требует некоторого взлома.

Вы также можете использовать tesseract-ocr для Часть OCR также имеет открытый исходный код и находится в активной разработке.

Что касается извлечения, я бы также остановился на hpricot, сверхмощном и гибком.

3
ответ дан 14 December 2019 в 19:16
поделиться

Звучит как классный проект и не должен быть слишком сложным, если изображения ISBN хранятся в отдельных файлах.

Все это можно запустить в фоновом режиме:

  • загрузить веб-страницу (net / http)
  • сохранить метаданные + файл изображения для каждой книги (скрепку)
  • запустить GOCR для всех изображений

Все вам нужен список URL-адресов или поисковый робот (механизация), а затем вам, вероятно, потребуется несколько минут написать синтаксический анализатор (см. сообщение Джо) для университетских html-страниц.

2
ответ дан 14 December 2019 в 19:16
поделиться
Другие вопросы по тегам:

Похожие вопросы: