Nutch: чтение данных и добавление метаданных

Недавно начал искать апач нутч. Я мог настроить и сканировать интересующие меня веб-страницы с помощью nutch. Я не совсем понимаю, как читать эти данные. В основном я хочу связать данные каждой страницы с некоторыми метаданными (на данный момент некоторые случайные данные) и хранить их локально, которые позже будут использоваться для поиска (семантического). Нужно ли мне использовать solr или lucene для того же? Я новичок во всем этом. Насколько я знаю, Nutch используется для сканирования веб-страниц. Может ли он выполнять некоторые дополнительные функции, такие как добавление метаданных к просканированным данным?

5
задан CRS 27 May 2012 в 06:09
поделиться