У меня есть набор из 200 миллионов документов, которые мне нужно проиндексировать. В каждом документе есть свободный текст и дополнительный набор разреженных метаданных (более 100 столбцов).
Кажется, что правильный инструмент для индексирования свободного текста - это Lucene, а правильный инструмент для структурированных разреженных метаданных - HBase.
Я бы хотел необходимо запросить данные и объединить результаты поиска по свободному тексту и результаты структурированных данных (например, получить все книги, в тексте которых есть фраза «доброе утро» и которые были впервые опубликованы в 1980 году).
Какие инструменты / механизмы мне следует использовать для объединения структурированных и неразрезанных запросов? Результаты могут включать миллионы записей (до и после присоединения)
Спасибо Saar