1
ответ

Как избежать OutOfMemoryException при выполнении Hadoop?

Я выполняю задание Hadoop более чем 1,5 ТБ данных с выполнением большого сопоставления с образцом. У меня есть несколько машин с 16 ГБ RAM каждый, и я всегда получаю OutOfMemoryException на этом задании с этими данными (я использую...
вопрос задан: 1 August 2010 19:22
1
ответ

Устройство хранения данных проанализированных данных логов в hadoop и экспорте его в реляционный DB

У меня есть требование парсинга и журналы доступа Apache и журналы кота, один за другим использующие карту, уменьшают. Немного полей извлекаются из журнала кота и отдыха от журнала Apache. Я должен объединить карту/...
вопрос задан: 20 June 2010 19:13
1
ответ

Работая с Katta (Lucene, Hadoop)

Может любой предоставлять мне некоторый демонстрационный код Java как, как пойти о хранении индекса Lucene в HDFS (Файл Hadoop Sytem), с помощью Katta.
вопрос задан: 20 June 2010 18:07
1
ответ

0.20.2 API hadoop версия с java 5

Я запустил проект знатока, пытающийся реализовать алгоритм MapReduce в Java 1.5.0_14. Я выбрал 0.20.2 API hadoop версия. В pom.xml я использую таким образом следующую зависимость: <...
вопрос задан: 7 June 2010 15:11
1
ответ

Какой-либо Открытый исходный код Преголя как платформа для распределенной обработки больших Графиков?

Google описал новую платформу для распределенной обработки на Крупных Графиках. http://portal.acm.org/citation.cfm?id=1582716.1582723, который я хотел знать, если подобный Hadoop (MapReduce)...
вопрос задан: 6 June 2010 21:44
1
ответ

Организация репозитория по проекту Hadoop

Я запускаю на новом проекте Hadoop, который будет иметь несколько hadoop заданий (и следовательно несколько файлов банки). Используя подвижный для управления исходным кодом, я задавался вопросом, каков будет оптимальный способ организовать...
вопрос задан: 2 June 2010 00:42
1
ответ

Глобальные переменные в hadoop

Моя программа следует, повторяющееся отображают/уменьшают подход. И это должно остановиться, если определенные условия соблюдены. Есть ли так или иначе, я могу установить глобальную переменную, которая может быть распределена через все, отображают/уменьша
вопрос задан: 23 May 2010 14:56
1
ответ

Идея проекта с [закрытым] MapReduce Hadoop

Я изучил Hadoop несколько месяцев назад и сумел сделать очень вводный проект программирования на нем. Я хочу сделать маленькое - проект среднего размера или ряд маленьких распределений работы по программированию с Hadoop. Я...
вопрос задан: 14 May 2010 02:41
1
ответ

Несколько строк текста к единственной карте

Я пытался использовать Hadoop для отправки суммы N строк к единственному отображению. Я не требую, чтобы строки уже были разделены. Я попытался использовать NLineInputFormat, однако который отправляет строки N...
вопрос задан: 26 April 2010 04:13
1
ответ

Опции веб-интерфейса Hive Hadoop

Я экспериментировал с Hive для некоторых операций анализа данных и хотел бы сделать его легко доступным ориентируемым коллегам меньшей командной строки. Hive действительно теперь поставлется с веб-интерфейсом (http:/...
вопрос задан: 3 April 2010 12:06
1
ответ

Выдача исключения у свиньи EvalFunc UDF пропускают просто, что строка, или останавливаются полностью?

Мне записали Определяемую пользователем функцию (UDF) в Java для парсинга строк в файле журнала и информации о возврате назад свинье, таким образом, это может сделать всю обработку. Это выглядит примерно так: общедоступный краткий обзор...
вопрос задан: 29 March 2010 17:49
1
ответ

Разработка приложений Hadoop и PHP

Для hadoop разработки приложений платформы действительно ли PHP менее популярны? Если так, почему? Еще, укажите на литературу/документацию/учебные руководства для определенной платформы? (материал для Symfony был бы потрясающим!...
вопрос задан: 24 March 2010 20:28
1
ответ

Кто-то может дать высокий уровень, простое объяснение новичку о том, как Hadoop работает?

Я знаю, как memcached работает. Как Hadoop работает?
вопрос задан: 23 March 2010 02:24
1
ответ

что такое система сериализации данных?

согласно Apache проект AVRO, "Avro является системой сериализации". Путем высказывания системы сериализации данных это означает, что avro является продуктом или API? также, я не завершен уверенный в какой данные...
вопрос задан: 21 March 2010 10:37
1
ответ

Храня данные к SequenceFile от Свиньи Apache

Свинья Apache может загрузить данные из файлов последовательности Hadoop с помощью PiggyBank SequenceFileLoader: РЕГИСТР/home/hadoop/pig/contrib/piggybank/java/piggybank.jar; ОПРЕДЕЛИТЕ SequenceFileLoader org.apache.pig....
вопрос задан: 10 March 2010 23:52
1
ответ

Hadoop DFS-ls возвращает список файлов в моем hadoop/dir

Я настроил sigle-узел конфигурация Hadoop, работающая через cygwin под Win7. После запуска Hadoop bybin/start-all.sh я выполняю bin/hadoop DFS-ls, который возвращает меня список файлов в моем hadoop каталоге...
вопрос задан: 6 March 2010 19:44
1
ответ

Где HDFS хранит файлы локально по умолчанию?

Я выполняю hadoop с конфигурацией по умолчанию с кластером с одним узлом и хотел бы найти, где HDFS хранит файлы локально. Какие-либо идеи? Спасибо.
вопрос задан: 1 March 2010 19:19
1
ответ

Потоковая передача Hadoop mapreduce от HBase

Я создаю Hadoop (0.20.1) mapreduce задание, которое использует HBase (0.20.1) и в качестве источника данных и в качестве приемника данных. Я хотел бы записать задание в Python, который потребовал, чтобы я использовал hadoop-0.20.1-...
вопрос задан: 10 November 2009 09:50
1
ответ

Используя Apache [закрытые] библиотеки машинного обучения Mahout

Я работал с Apache машинное обучение Mahout libaries в мое свободное время за прошлые несколько недель. Мне любопытно услышать о том, как другие пользуются этими библиотеками.
вопрос задан: 30 October 2009 15:46
1
ответ

Получите идентификатор попытки задачи для в настоящее время рабочей задачи Hadoop

Раздел Task Side-Effect Files учебного руководства Hadoop упоминает, что использовал "attemptid" задачи как уникальное имя. Как я получаю этот идентификатор попытки в своем картопостроителе или редукторе?
вопрос задан: 29 September 2009 20:15
1
ответ

CloudStore по сравнению с HDFS

Делает у любого есть любое знакомство с работой и с CloudStore и с HDFS. Мне интересно видеть, как далеко CloudStore масштабировался и как в большой степени он использовался в производстве. CloudStore кажется...
вопрос задан: 29 September 2009 20:14
1
ответ

OLAP может быть сделан в BigTable?

В прошлом я раньше создавал WebAnalytics с помощью работы кубов OLAP MySQL. Теперь куб OLAP путем, я использовал его, является просто большой таблицей (хорошо, это было сохранено немного более умное, чем это), где каждая строка...
вопрос задан: 14 September 2009 21:59
1
ответ

Действительно ли HBase стабилен и готов к производству?

Для людей, которые развернули HBase на их собственных кластерах, Вы чувствуете, что это достаточно стабильно для производственного использования? С какими типами проблем или проблем Вы столкнулись? Я действительно вижу набор...
вопрос задан: 20 June 2009 18:08
0
ответов

Does Hive have a String split function?

I am looking for a in-built String split function in Hive? e.g. if String is: A|B|C|D|E Then I want to have a function like: array split(string input, char delimiter) So that I get ...
вопрос задан: 2 October 2019 21:00
0
ответов

Собственные библиотеки Hadoop не найдены в OS / X

Я загрузил исходный код hadoop из github и скомпилировал его с нативной опцией: mvn package -Pdist, native -DskipTests -Dtar -Dmaven.javadoc.skip = true. Затем я скопировал файлы .dylib в $ ...
вопрос задан: 23 August 2019 05:25
0
ответов

Hadoop как база данных хранилища документов

В настоящее время у нас есть большое хранилище документов с объемом памяти 3 ТБ, которое увеличивается на 1 ТБ каждые шесть месяцев. В настоящее время они хранятся в файловой системе Windows, что иногда вызывало проблемы в ...
вопрос задан: 6 August 2019 19:32
0
ответов

Использование mahout и hadoop

Я новичок, пытаясь понять, как mahout и hadoop будут использоваться для совместной работы фильтрация. У меня есть установка cassandra с одним узлом. Я хочу получить данные из cassandra Где я могу найти clear ...
вопрос задан: 19 July 2019 14:07
0
ответов

.NET и Hadoop - что я должен знать / изучить и что доступно? [закрыто]

Информация Мой вопрос касается BigData в .NET. BigData используется для хранения и запроса огромных объемов данных (Facebook, Google, Twitter, ...). Примерами BigData являются MapReduce, Hadoop, Dryad и т.д. ...
вопрос задан: 22 May 2019 03:31
0
ответов

Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу с помощью сценария bin / pyspark, чтобы перейти к приглашению spark, а также успешно выполнить быстрый запуск. Однако я ...
вопрос задан: 11 May 2019 00:48
0
ответов

Клиент Hbase не может подключиться к удаленному серверу Hbase

Я написал следующий класс клиента hbase для удаленного сервера: System.out.println («Демонстрационное приложение Hbase»); // КОНФИГУРАЦИЯ // ОБЕСПЕЧЕНИЕ ЗАПУСКА try {...
вопрос задан: 4 May 2019 11:29