0
ответов

Почему вызывает ли проверка наличия файла в hadoop исключение NullPointerException?

I ' m пытаюсь создать или открыть файл для хранения вывода в HDFS, но я получаю исключение NullPointerException, когда вызываю метод exists во второй и последней строке фрагмента кода ниже: ...
вопрос задан: 18 January 2011 19:14
0
ответов

Может ли Hadoop работать на Nginx?

Можно ли запустить Hadoop на Nginx? если да, то есть ли ссылка?
вопрос задан: 14 January 2011 19:56
0
ответов

Hadoop выбрасывает java.lang.VerifyError после экспорта файла jar

Я изменяю карту hadoop - сокращаю задание, которое в настоящее время компилируется и отлично работает без моих изменений. В рамках работы я сейчас подключусь к S3, чтобы доставить файл. Я разработал (очень простой) ...
вопрос задан: 13 January 2011 22:24
0
ответов

Как перенести таблицу mysql в куст?

У меня есть большая таблица mysql, которую я хотел бы перенести в таблицу Hadoop / Hive. Существуют ли стандартные команды или методы для переноса простой (но большой) таблицы из Mysql в Hive? В таблице хранится ...
вопрос задан: 8 January 2011 05:24
0
ответов

Эффективный способ удаления нескольких строк в HBase

Есть ли эффективный способ удалить несколько строк в HBase или мой вариант использования пахнет не подходит для HBase? Есть таблица с названием «диаграмма», которая содержит элементы, которые находятся в диаграммах. Ключи строк - это ...
вопрос задан: 6 January 2011 19:33
0
ответов

Разница между 'distcp' и 'distcp -update'?

В чем разница между hadoop distcp и hadoop distcp -update Оба они будут выполнять одинаковую работу только с небольшая разница в том, как мы их называем. Ни один из них не перезаписывает уже ...
вопрос задан: 6 January 2011 13:37
0
ответов

Задание Hadoop принимает входные данные файлы из нескольких каталогов

У меня есть ситуация, когда у меня есть несколько (100+ по 2-3 МБ каждый) файлов в сжатом формате gz, находящихся в нескольких каталогах. Например A1 / B1 / C1 / part-0000.gz A2 / B2 / C2 / part-0000.gz A1 / B1 / C1 / part-0001 ....
вопрос задан: 4 January 2011 11:48
0
ответов

Почему Hadoop не реализован с использованием MPI?

Поправьте меня, если Я ошибаюсь, но я понимаю, что Hadoop не использует MPI для связи между разными узлами. Каковы технические причины этого? Я мог бы рискнуть несколькими предположениями, но я ...
вопрос задан: 4 January 2011 04:34
0
ответов

Hadoop Streaming Job failed error in python

From this guide, I have successfully run the sample exercise. But on running my mapreduce job, I am getting the following error ERROR streaming.StreamJob: Job not Successful! 10/12/16 17:13:38 INFO ...
вопрос задан: 16 December 2010 13:22
0
ответов

Troubleshooting R mapper script on Amazon Elastic MapReduce - Results not as expected

I am trying to use Amazon Elastic Map Reduce to run a series of simulations of several million cases. This is an Rscript streaming job with no reducer. I am using the Identity Reducer in my EMR call --...
вопрос задан: 14 December 2010 20:17
0
ответов

Какой самый простой способ объединить небольшие блоки HDFS?

Я собираю журналы с Flume в HDFS. Для тестового примера у меня есть небольшие файлы (~ 300 КБ), потому что процесс сбора журналов был масштабирован для реального использования. Есть ли простой способ объединить эти ...
вопрос задан: 13 December 2010 14:08
0
ответов

Преобразовать «3» в 3 с помощью PigLatin

Я прочитал в CSV -файл, содержащий поля с такими числами: «3». Могу ли я преобразовать эти поля из "3" в 3 с помощью PigLatin? Мне нужно использовать функцию СУММ (). Спасибо за вашу помощь!
вопрос задан: 8 December 2010 16:04
0
ответов

выполнение нескольких заданий MapReduce в hadoop

Я хочу запустить цепочку заданий сокращения карты, поэтому кажется, что самым простым решением является быть контролером работы. скажем, у меня две работы, работа1 и работа2. и я хочу запустить job2 после job1. Что ж, возникли некоторые проблемы. после .
вопрос задан: 7 December 2010 15:16
0
ответов

Потоковая передача Hadoop - Невозможно найти ошибку файла

Я пытаюсь запустить питон с потоковой передачей Hadoop работа. bin / hadoop jar contrib / streaming / hadoop-0.20.1-streaming.jar -D stream.non.zero.exit.is.failure = true -input / ixml -output / oxml -mapper scripts / ...
вопрос задан: 2 December 2010 21:18
0
ответов

1 миллион предложений для сохранения в БД - удаление нерелевантных английских слов

Я пытаюсь обучить наивный байесовский классификатор с извлечением положительных / отрицательных слов из настроение. пример: я обожаю этот фильм :)) ненавижу, когда идет дождь :( Идея в том, что я извлекаю позитив ...
вопрос задан: 24 November 2010 11:00
0
ответов

Using Hadoop for the First Time, MapReduce Job does not run Reduce Phase

I wrote a simple map reduce job that would read in data from the DFS and run a simple algorithm on it. When trying to debug it I decided to simply make the mappers output a single set of keys and ...
вопрос задан: 23 November 2010 06:16
0
ответов

Какие существуют системы для управления логикой / проверкой внутреннего и внешнего интерфейса?

Мне просто интересно, как люди, работающие в группах, управляют взаимосвязью между логикой и проверкой в бэкэнд, скажем, на php, и точно такая же логика и проверка во внешнем интерфейсе, для ...
вопрос задан: 20 November 2010 21:53
0
ответов

Как проще всего объяснить, что такое Hadoop и Map / Reduce?

NoSQL очень легко объяснить с точки зрения высокого уровня - это, по сути, хранилище «ключ-значение». Конечно, с тысячей второстепенных и важных вещей, но в целом это просто хранилище ключевых значений. Что за ...
вопрос задан: 14 November 2010 18:32
0
ответов

Hadoop Pig: передача аргументов командной строки

Есть ли способ сделать это? например, передать имя файла для обработки, и т. д.?
вопрос задан: 12 November 2010 15:29
0
ответов

Разница между базами данных, ориентированными на строки и столбцами, при поиске информации

Недавно я начал работать над HBase (одной из баз данных, ориентированных на столбцы). Пока я просматриваю исходный код, у меня в голове постоянно возникает один вопрос. Подумал об этом спросить. У меня вопрос, как ...
вопрос задан: 11 November 2010 07:07
0
ответов

Классификация данных с помощью Apache Mahout

Я пытаюсь решить простую задачу классификации. Проблема: у меня есть набор текста, и я должен классифицировать его в зависимости от содержания. Решение с использованием Mahout: Я понял, что мне нужно ...
вопрос задан: 9 November 2010 19:29
0
ответов

How to check for inf (and | or) NaN in a double variable

Consider the following code: #include #include #include с использованием пространства имен std; шаблон <класс T> bool IsNaN (T t) {вернуть t! = t;
вопрос задан: 4 November 2010 12:06
0
ответов

Является ли «Принятие модели MapReduce» универсальным ответом на масштабируемость?

Я пытался понять концепцию MapReduce и применить ее к моей текущей ситуации. Какая у меня ситуация? Что ж, у меня есть инструмент ETL, в котором преобразование данных происходит вне источника ...
вопрос задан: 2 November 2010 10:43
0
ответов

How can I use the map datatype in Apache Pig?

I'd like to use Apache Pig to build a large key -> value mapping, look things up in the map, and iterate over the keys. However, there does not even seem to be syntax for doing these things; I've ...
вопрос задан: 1 November 2010 14:07
0
ответов

Similarity join using Hadoop

I'm new to hadoop. I'd like to run some approaches with you that I came up with. Problem: 2 набора данных: A и B. Оба набора данных представляют песни: некоторые атрибуты верхнего уровня, названия (1 ..), исполнители (...
вопрос задан: 29 October 2010 16:23
0
ответов

Библиотека генетического программирования для Java [закрыто]

Я ищу хорошую библиотеку генетического программирования для JVM. (не генетический алгоритм, а генетическое программирование) Я пробовал JGAP (jgap.sourceforge.net) и Watchmaker (watchmaker.uncommons.org). К сожалению, ...
вопрос задан: 7 October 2010 15:37
0
ответов

How to run a Hadoop program?

I have set up Hadoop on my laptop and ran the example program given in the installation guide successfully. But, I am not able to run a program. rohit@renaissance1: ~ / hadoop / ch2 $ hadoop ...
вопрос задан: 26 September 2010 20:28
0
ответов

Hadoop MR источник: HDFS против HBase. Преимущества каждого?

Если я правильно понимаю экосистему Hadoop, я могу запускать свои задания MapReduce, получая данные из HDFS или HBase. Если предположить, что предыдущее предположение верно, почему я должен выбрать одно вместо другого? ...
вопрос задан: 22 September 2010 23:06
0
ответов

Grep потоковой передачи Hadoop не работает

Grep, похоже, не работает для потоковой передачи hadoop Для: банка hadoop /usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar -input /user/root/tmp2/user.data -output /user/root/...
вопрос задан: 21 September 2010 20:22
0
ответов

Когда использование Hadoop является излишним?

У меня есть база данных Oracle (примерно 1,2 миллиарда) записей) данных, поверх которых находится веб-приложение, которое генерирует запросы (генерирует код SQL и возвращает счетчики). В основном вы сгенерировали SQL ...
вопрос задан: 21 September 2010 17:58