hadoop - список вопросов по программированию hadoop

0

ответов

Почему вызывает ли проверка наличия файла в hadoop исключение NullPointerException?

I ' m пытаюсь создать или открыть файл для хранения вывода в HDFS, но я получаю исключение NullPointerException, когда вызываю метод exists во второй и последней строке фрагмента кода ниже: ...

java hadoop

вопрос задан: 18 January 2011 19:14

0

ответов

Может ли Hadoop работать на Nginx?

Можно ли запустить Hadoop на Nginx? если да, то есть ли ссылка?

nginx hadoop

вопрос задан: 14 January 2011 19:56

0

ответов

Hadoop выбрасывает java.lang.VerifyError после экспорта файла jar

Я изменяю карту hadoop - сокращаю задание, которое в настоящее время компилируется и отлично работает без моих изменений. В рамках работы я сейчас подключусь к S3, чтобы доставить файл. Я разработал (очень простой) ...

eclipse amazon-s3 hadoop jets3t

вопрос задан: 13 January 2011 22:24

0

ответов

Как перенести таблицу mysql в куст?

У меня есть большая таблица mysql, которую я хотел бы перенести в таблицу Hadoop / Hive. Существуют ли стандартные команды или методы для переноса простой (но большой) таблицы из Mysql в Hive? В таблице хранится ...

mysql hadoop hive

вопрос задан: 8 January 2011 05:24

0

ответов

Эффективный способ удаления нескольких строк в HBase

Есть ли эффективный способ удалить несколько строк в HBase или мой вариант использования пахнет не подходит для HBase? Есть таблица с названием «диаграмма», которая содержит элементы, которые находятся в диаграммах. Ключи строк - это ...

hadoop mapreduce hbase

вопрос задан: 6 January 2011 19:33

0

ответов

Разница между 'distcp' и 'distcp -update'?

В чем разница между hadoop distcp и hadoop distcp -update Оба они будут выполнять одинаковую работу только с небольшая разница в том, как мы их называем. Ни один из них не перезаписывает уже ...

hadoop mapreduce hdfs

вопрос задан: 6 January 2011 13:37

0

ответов

Задание Hadoop принимает входные данные файлы из нескольких каталогов

У меня есть ситуация, когда у меня есть несколько (100+ по 2-3 МБ каждый) файлов в сжатом формате gz, находящихся в нескольких каталогах. Например A1 / B1 / C1 / part-0000.gz A2 / B2 / C2 / part-0000.gz A1 / B1 / C1 / part-0001 ....

file input hadoop

вопрос задан: 4 January 2011 11:48

0

ответов

Почему Hadoop не реализован с использованием MPI?

Поправьте меня, если Я ошибаюсь, но я понимаю, что Hadoop не использует MPI для связи между разными узлами. Каковы технические причины этого? Я мог бы рискнуть несколькими предположениями, но я ...

tcp hadoop protocol-buffers mpi distributed-computing

вопрос задан: 4 January 2011 04:34

0

ответов

Hadoop Streaming Job failed error in python

From this guide, I have successfully run the sample exercise. But on running my mapreduce job, I am getting the following error ERROR streaming.StreamJob: Job not Successful! 10/12/16 17:13:38 INFO ...

python hadoop mapreduce

вопрос задан: 16 December 2010 13:22

0

ответов

Troubleshooting R mapper script on Amazon Elastic MapReduce - Results not as expected

I am trying to use Amazon Elastic Map Reduce to run a series of simulations of several million cases. This is an Rscript streaming job with no reducer. I am using the Identity Reducer in my EMR call --...

r hadoop simulation amazon-emr

вопрос задан: 14 December 2010 20:17

0

ответов

Какой самый простой способ объединить небольшие блоки HDFS?

Я собираю журналы с Flume в HDFS. Для тестового примера у меня есть небольшие файлы (~ 300 КБ), потому что процесс сбора журналов был масштабирован для реального использования. Есть ли простой способ объединить эти ...

hadoop hdfs flume

вопрос задан: 13 December 2010 14:08

0

ответов

Преобразовать «3» в 3 с помощью PigLatin

Я прочитал в CSV -файл, содержащий поля с такими числами: «3». Могу ли я преобразовать эти поля из "3" в 3 с помощью PigLatin? Мне нужно использовать функцию СУММ (). Спасибо за вашу помощь!

csv hadoop apache-pig

вопрос задан: 8 December 2010 16:04

0

ответов

выполнение нескольких заданий MapReduce в hadoop

Я хочу запустить цепочку заданий сокращения карты, поэтому кажется, что самым простым решением является быть контролером работы. скажем, у меня две работы, работа1 и работа2. и я хочу запустить job2 после job1. Что ж, возникли некоторые проблемы. после .

java hadoop mapreduce

вопрос задан: 7 December 2010 15:16

0

ответов

Потоковая передача Hadoop - Невозможно найти ошибку файла

Я пытаюсь запустить питон с потоковой передачей Hadoop работа. bin / hadoop jar contrib / streaming / hadoop-0.20.1-streaming.jar -D stream.non.zero.exit.is.failure = true -input / ixml -output / oxml -mapper scripts / ...

python streaming hadoop mapreduce

вопрос задан: 2 December 2010 21:18

0

ответов

1 миллион предложений для сохранения в БД - удаление нерелевантных английских слов

Я пытаюсь обучить наивный байесовский классификатор с извлечением положительных / отрицательных слов из настроение. пример: я обожаю этот фильм :)) ненавижу, когда идет дождь :( Идея в том, что я извлекаю позитив ...

database hadoop nlp classification sentiment-analysis

вопрос задан: 24 November 2010 11:00

0

ответов

Using Hadoop for the First Time, MapReduce Job does not run Reduce Phase

I wrote a simple map reduce job that would read in data from the DFS and run a simple algorithm on it. When trying to debug it I decided to simply make the mappers output a single set of keys and ...

hadoop mapreduce

вопрос задан: 23 November 2010 06:16

0

ответов

Какие существуют системы для управления логикой / проверкой внутреннего и внешнего интерфейса?

Мне просто интересно, как люди, работающие в группах, управляют взаимосвязью между логикой и проверкой в бэкэнд, скажем, на php, и точно такая же логика и проверка во внешнем интерфейсе, для ...

hadoop mapreduce reduce

вопрос задан: 20 November 2010 21:53

0

ответов

Как проще всего объяснить, что такое Hadoop и Map / Reduce?

NoSQL очень легко объяснить с точки зрения высокого уровня - это, по сути, хранилище «ключ-значение». Конечно, с тысячей второстепенных и важных вещей, но в целом это просто хранилище ключевых значений. Что за ...

map hadoop mapreduce reduce

вопрос задан: 14 November 2010 18:32

0

ответов

Hadoop Pig: передача аргументов командной строки

Есть ли способ сделать это? например, передать имя файла для обработки, и т. д.?

hadoop apache-pig

вопрос задан: 12 November 2010 15:29

0

ответов

Разница между базами данных, ориентированными на строки и столбцами, при поиске информации

Недавно я начал работать над HBase (одной из баз данных, ориентированных на столбцы). Пока я просматриваю исходный код, у меня в голове постоянно возникает один вопрос. Подумал об этом спросить. У меня вопрос, как ...

java database database-design hadoop hbase

вопрос задан: 11 November 2010 07:07

0

ответов

Классификация данных с помощью Apache Mahout

Я пытаюсь решить простую задачу классификации. Проблема: у меня есть набор текста, и я должен классифицировать его в зависимости от содержания. Решение с использованием Mahout: Я понял, что мне нужно ...

apache machine-learning hadoop mahout

вопрос задан: 9 November 2010 19:29

0

ответов

How to check for inf (and | or) NaN in a double variable

Consider the following code: #include #include #include с использованием пространства имен std; шаблон <класс T> bool IsNaN (T t) {вернуть t! = t;

r hadoop condor

вопрос задан: 4 November 2010 12:06

0

ответов

Является ли «Принятие модели MapReduce» универсальным ответом на масштабируемость?

Я пытался понять концепцию MapReduce и применить ее к моей текущей ситуации. Какая у меня ситуация? Что ж, у меня есть инструмент ETL, в котором преобразование данных происходит вне источника ...

java design-patterns architecture hadoop distributed-computing

вопрос задан: 2 November 2010 10:43

0

ответов

How can I use the map datatype in Apache Pig?

I'd like to use Apache Pig to build a large key -> value mapping, look things up in the map, and iterate over the keys. However, there does not even seem to be syntax for doing these things; I've ...

apache-pig hadoop map syntax

вопрос задан: 1 November 2010 14:07

0

ответов

Similarity join using Hadoop

I'm new to hadoop. I'd like to run some approaches with you that I came up with. Problem: 2 набора данных: A и B. Оба набора данных представляют песни: некоторые атрибуты верхнего уровня, названия (1 ..), исполнители (...

hadoop

вопрос задан: 29 October 2010 16:23

0

ответов

Библиотека генетического программирования для Java [закрыто]

Я ищу хорошую библиотеку генетического программирования для JVM. (не генетический алгоритм, а генетическое программирование) Я пробовал JGAP (jgap.sourceforge.net) и Watchmaker (watchmaker.uncommons.org). К сожалению, ...

eclipse eclipse-plugin cygwin hadoop eclipse-3.6

вопрос задан: 7 October 2010 15:37

0

ответов

How to run a Hadoop program?

I have set up Hadoop on my laptop and ran the example program given in the installation guide successfully. But, I am not able to run a program. rohit@renaissance1: ~ / hadoop / ch2 $ hadoop ...

hadoop

вопрос задан: 26 September 2010 20:28

0

ответов

Hadoop MR источник: HDFS против HBase. Преимущества каждого?

Если я правильно понимаю экосистему Hadoop, я могу запускать свои задания MapReduce, получая данные из HDFS или HBase. Если предположить, что предыдущее предположение верно, почему я должен выбрать одно вместо другого? ...

implementation hadoop

вопрос задан: 22 September 2010 23:06

0

ответов

Grep потоковой передачи Hadoop не работает

Grep, похоже, не работает для потоковой передачи hadoop Для: банка hadoop /usr/local/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar -input /user/root/tmp2/user.data -output /user/root/...

streaming hadoop

вопрос задан: 21 September 2010 20:22

0

ответов

Когда использование Hadoop является излишним?

У меня есть база данных Oracle (примерно 1,2 миллиарда) записей) данных, поверх которых находится веб-приложение, которое генерирует запросы (генерирует код SQL и возвращает счетчики). В основном вы сгенерировали SQL ...

hadoop

вопрос задан: 21 September 2010 17:58