HBase & Mahout - Использование HBase в качестве хранилища данных / источника для Mahout - Классификация

Я работаю над большим проектом классификации текста, и наши текстовые данные (простые сообщения) хранятся в HBase.

У нас есть две проблемы. Во-первых, мы хотели бы использовать HBase в качестве источника для классификаторов Mahout, а именно Bayers и Random Forests.

Во-вторых, мы хотели бы иметь возможность хранить модель, сгенерированную в HBase, вместо использования подхода в памяти (InMemoryBayesDatastore), однако по мере роста наших наборов мы сталкиваемся с проблемами с использованием памяти и хотели бы протестировать HBase как жизнеспособная альтернатива.

Похоже, мало материала об использовании HBase с Mahout, и возможно ли использовать его в качестве потенциального источника данных. Я использую основной API Mahout 0.6 на Java, в котором есть хранилище данных InMemory.

Немного покопавшись, я полагаю, что (был) компонент HBase Bayers Datastore - org.apache.mahout.classifier.bayes.datastore.HBaseBayesDatastore См. Старую версию JavaDoc здесь: http: //www.jarvana.com/jarvana/view/org/apache/mahout/mahout-core/0.3/mahout-core-0.3-javadoc.jar!/org/apache/mahout/classifier/bayes/datastore/HBaseBayesDatastore.html

Однако, глядя на последнюю документацию, похоже, что эта функция исчезла ..? https://builds.apache.org/job/Mahout-Качество / javadoc /

Я хотел узнать, можно ли по-прежнему использовать HBase в качестве источника данных для Bayers и RandomForests и есть ли какие-либо предыдущие варианты использования в этом случае?

Спасибо!

15
задан NightWolf 25 July 2011 в 12:52
поделиться