Поиск в документах, хранящихся в Hadoop -Какой инструмент использовать?

Я потерялся в :Hadoop, Hbase, Lucene, Carrot2, Cloudera, Tika, ZooKeeper, Solr, Katta, Cascading, POI...

Когда вы читаете об одном, вы часто можете быть уверены, что каждый из других инструментов будет упомянут.

Я не ожидаю, что вы объясните мне каждый инструмент -, уж точно нет. Если бы вы могли помочь мне сузить этот набор для моего конкретного сценария, это было бы здорово. Пока я не уверен, что из вышеперечисленного подойдет, и похоже, что (как всегда )есть более чем один способ сделать то, что нужно сделать.

Сценарий: :500 ГБ-~20 ТБ документов, хранящихся в Hadoop. Текстовые документы в различных форматах :электронная почта, doc, pdf, odt. Метаданные об этих документах, хранящиеся в базе данных SQL (отправитель, получатели, дата, отдел и т. д. )Основным источником документов будут электронные письма ExchangeServer (и вложения ), но не только. Теперь к поиску :Пользователь должен иметь возможность выполнять комплексный полнотекстовый -поиск по этим документам. По сути, ему будет представлен некоторый поиск -панель конфигурации (настольное приложение Java, а не веб-приложение)-он установит диапазон дат, типы документов, отправителей/получателей, ключевые слова и т. д. -запустит поиск и получит результирующий список документов (и для каждого документа информацию, почему он включен в результаты поиска, т.е. какие ключевые слова найдены в документе ).

Какие инструменты я должен принимать во внимание, а какие нет? Суть в том, чтобы разработать такое решение с минимально необходимым «клеевым» -кодом. Я хорошо разбираюсь в SQLdbs, но мне совершенно неудобно работать с технологиями, связанными с Apache -и -.

Базовый рабочий процесс выглядит следующим образом :ExchangeServer/другой источник -> преобразование из doc/pdf/... -> дедупликация -> метаданные Hadopp + SQL ()-> построить/обновить индекс < -искать в документации (и делать это быстро)-> представить результаты поиска

Благодарю вас!

5
задан garret 18 July 2012 в 18:53
поделиться