Структурированная и неструктурированная индексация - Lucene и Hbase

У меня есть набор из 200 миллионов документов, которые мне нужно проиндексировать. В каждом документе есть свободный текст и дополнительный набор разреженных метаданных (более 100 столбцов).

Кажется, что правильный инструмент для индексирования свободного текста - это Lucene, а правильный инструмент для структурированных разреженных метаданных - HBase.

Я бы хотел необходимо запросить данные и объединить результаты поиска по свободному тексту и результаты структурированных данных (например, получить все книги, в тексте которых есть фраза «доброе утро» и которые были впервые опубликованы в 1980 году).

Какие инструменты / механизмы мне следует использовать для объединения структурированных и неразрезанных запросов? Результаты могут включать миллионы записей (до и после присоединения)

Спасибо Saar

5
задан Saar 1 August 2011 в 07:08
поделиться