Вот хорошая процедура сброса любой последовательности к 0 от гуру Oracle Tom Kyte . Большое обсуждение за и против в ссылках ниже также.
tkyte@TKYTE901.US.ORACLE.COM>
create or replace
procedure reset_seq( p_seq_name in varchar2 )
is
l_val number;
begin
execute immediate
'select ' || p_seq_name || '.nextval from dual' INTO l_val;
execute immediate
'alter sequence ' || p_seq_name || ' increment by -' || l_val ||
' minvalue 0';
execute immediate
'select ' || p_seq_name || '.nextval from dual' INTO l_val;
execute immediate
'alter sequence ' || p_seq_name || ' increment by 1 minvalue 0';
end;
/
От этой страницы: Динамический SQL для сброса значения последовательности
Другое хорошее обсуждение также здесь: , Как сбросить последовательности?
GOCR поначалу кажется хорошим выбором, но, судя по тому, что я могу судить из своего собственного «исследования», качество не вполне достаточно для повседневного использования. Возможно, это могло привести к проблеме, в зависимости от входного изображения. Если у вас не получается, попробуйте «новую» функцию Документов Google, который позволяет загружать изображения для OCR. Затем вы можете получить результаты с помощью некоторого API Google (их много, я использую gdata-ruby-util , который требует некоторого взлома.
Вы также можете использовать tesseract-ocr для Часть OCR также имеет открытый исходный код и находится в активной разработке.
Что касается извлечения, я бы также остановился на hpricot, сверхмощном и гибком.
Звучит как классный проект и не должен быть слишком сложным, если изображения ISBN хранятся в отдельных файлах.
Все это можно запустить в фоновом режиме:
Все вам нужен список URL-адресов или поисковый робот (механизация), а затем вам, вероятно, потребуется несколько минут написать синтаксический анализатор (см. сообщение Джо) для университетских html-страниц.