Я пытаюсь использовать Mahout в приложении, работающем на Windows. Я хочу создать кластеры из индекса lucene с помощью k-средств.
Как только я должен создать файлы последовательности (создающий векторы из индекса lucene), я получаю Hadoop-исключение, так как Hadoop выполняет вызовы командной строки к программам, неизвестным в среде Windows (например, chmod). Выполнение в Cygwin не является опцией, так как я хочу смочь запустить Приложение от затмения.
Таким образом, мой вопрос
Единственный способ запустить Hadoop в среде Windows - установить Cygwin. Дополнительную информацию см. в этом блоге:
http://hayesdavis.net/2008/06/14/running-hadoop-on-windows/
Cygwin предоставит все утилиты командной строки (например, chmod), на которые опирается Hadoop. Вы все еще можете запускать задания Hadoop из Eclipse, если хотите.
Знаете ли вы API SequenceFile
? Посмотрите здесь: http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
Вы можете попробовать написать / читать данные самостоятельно.
Я думаю, что вы можете запустить Mahout из eclipse в Windowns в автономном режиме. Но у вас появится несколько недостатков и препятствий. Вы должны попробовать, как далеко вы продвинулись.
На мой взгляд, не стоит настаивать на беге махаутов из затмения. ; -)