Использование Ruby и Ubuntu с оптическим распознаванием символов

Question

Использование Ruby и Ubuntu с оптическим распознаванием символов

Вот хорошая процедура сброса любой последовательности к 0 от гуру Oracle Tom Kyte . Большое обсуждение за и против в ссылках ниже также.

tkyte@TKYTE901.US.ORACLE.COM> 
create or replace
procedure reset_seq( p_seq_name in varchar2 )
is
    l_val number;
begin
    execute immediate
    'select ' || p_seq_name || '.nextval from dual' INTO l_val;

    execute immediate
    'alter sequence ' || p_seq_name || ' increment by -' || l_val || 
                                                          ' minvalue 0';

    execute immediate
    'select ' || p_seq_name || '.nextval from dual' INTO l_val;

    execute immediate
    'alter sequence ' || p_seq_name || ' increment by 1 minvalue 0';
end;
/

От этой страницы: Динамический SQL для сброса значения последовательности
Другое хорошее обсуждение также здесь: , Как сбросить последовательности?

5

ruby-on-rails ruby ubuntu ocr screen-scraping

задан ryan 9 December 2009 в 21:58

2 ответа

Другие вопросы по тегам:

ruby-on-rails ruby ubuntu ocr screen-scraping

Похожие вопросы:

score 3 · Answer 1

GOCR поначалу кажется хорошим выбором, но, судя по тому, что я могу судить из своего собственного «исследования», качество не вполне достаточно для повседневного использования. Возможно, это могло привести к проблеме, в зависимости от входного изображения. Если у вас не получается, попробуйте «новую» функцию Документов Google, который позволяет загружать изображения для OCR. Затем вы можете получить результаты с помощью некоторого API Google (их много, я использую gdata-ruby-util , который требует некоторого взлома.

Вы также можете использовать tesseract-ocr для Часть OCR также имеет открытый исходный код и находится в активной разработке.

Что касается извлечения, я бы также остановился на hpricot, сверхмощном и гибком.

score 2 · Answer 2

Звучит как классный проект и не должен быть слишком сложным, если изображения ISBN хранятся в отдельных файлах.

Все это можно запустить в фоновом режиме:

загрузить веб-страницу (net / http)
сохранить метаданные + файл изображения для каждой книги (скрепку)
запустить GOCR для всех изображений

Все вам нужен список URL-адресов или поисковый робот (механизация), а затем вам, вероятно, потребуется несколько минут написать синтаксический анализатор (см. сообщение Джо) для университетских html-страниц.