hadoop - список вопросов по программированию hadoop

0

ответов

Hadoop Vs Data Lake

Я слышал новый термин Data Lake. Я гуглил и понял, что Озеро данных - это крупномасштабное хранилище и механизм обработки. Озеро данных предоставляет «огромное хранилище для любых данных, огромных ...

data-lake data-warehouse hadoop

вопрос задан: 14 March 2016 12:24

0

ответов

Удаление нескольких таблиц с одинаковым префиксом в Hive

У меня есть несколько таблиц в кусте с таким же префиксом, как показано ниже .. temp_table_name temp_table_add temp_table_area В моей базе данных есть несколько сотен таких таблиц, как и многие другие таблицы. Я ...

hiveql hive hadoop

вопрос задан: 9 March 2016 20:28

0

ответов

Преимущества файла Sequence по сравнению с текстовым файлом hdfs

В чем преимущество файла последовательности Hadoop по сравнению с плоским файлом HDFS (Text )? Каким образом файл последовательности эффективен? Небольшие файлы можно объединять и записывать в файл последовательности, но то же самое можно...

hadoop sequencefile hdfs

вопрос задан: 29 February 2016 21:40

0

ответов

Формат хранения в HDFS

Как HDFS хранит данные? Я хочу хранить огромные файлы в сжатом виде. Например: у меня есть файл размером 1,5 ГБ с коэффициентом репликации по умолчанию 3. Для этого требуется (1,5) * 3 = 4,5 ГБ места. Я ...

hadoop storage hdfs

вопрос задан: 16 February 2016 16:48

0

ответов

Hadoop MapReduce: можно ли определить два преобразователя и редьюсера в одном классе заданий Hadoop?

У меня есть два отдельных класса Java для выполнения двух разных заданий mapreduce. Я могу запустить их независимо. Входные файлы, с которыми они работают, одинаковы для обоих заданий. Итак, мой вопрос...

hadoop mapreduce

вопрос задан: 8 February 2016 23:04

0

ответов

Объединение нескольких задач mapreduce в потоковую передачу Hadoop

Я нахожусь в сценарии, где у меня есть два задания mapreduce. Мне удобнее работать с python, и я планирую использовать его для написания скриптов mapreduce и использовать для этого потоковую передачу hadoop. есть ли удобный ...

python hadoop mapreduce hadoop-plugins

вопрос задан: 7 February 2016 04:05

0

ответов

Hadoop namenode: одна точка of failure

Namenode в архитектуре Hadoop - это единственная точка отказа. Как люди, у которых есть большие кластеры Hadoop, справляются с этой проблемой? Есть ли принятое в отрасли решение, которое сработало ...

hadoop mapreduce hdfs yarn hadoop2

вопрос задан: 1 February 2016 13:37

0

ответов

Apache Storm в сравнении с Hadoop

Как Storm сравнивается с Hadoop? Hadoop, по-видимому, является стандартом де-факто для крупномасштабной пакетной обработки с открытым исходным кодом, имеет ли Storm какие-либо преимущества перед hadoop? или они совершенно разные?

apache-storm hadoop streaming

вопрос задан: 1 February 2016 11:10

0

ответов

org.apache.hadoop.mapred.FileAlreadyExistsException

Я пытался запустить пример программы в Hadoop, приведенный здесь, когда я пытаюсь запустить ее, я получаю org.a pache.hadoop.mapred.FileAlreadyExistsException (скрытый) bin / hadoop jar ...

java hadoop

вопрос задан: 20 January 2016 09:05

0

ответов

Добавление узла данных в кластер hadoop

Когда я запускаю hadoopnode1 с помощью start-all.sh, он успешно запускает службы на главном и ведомый (см. вывод команды jps для ведомого). Но когда я пытаюсь увидеть активные узлы на экране администратора...

hadoop

вопрос задан: 4 January 2016 08:20

0

ответов

Загрузка больших данных для Hadoop [закрыто]

Мне нужны большие данные (более 10 ГБ) для запуска демонстрации Hadoop. Кто-нибудь знает, где я могу скачать его. Пожалуйста, дайте мне знать.

download hadoop

вопрос задан: 29 December 2015 21:56

0

ответов

Как извлекать данные в функциях Map / Reduce?

Согласно Hadoop: The Definitive Guide. Новый API поддерживает итерацию как «push», так и «pull». В обоих API пары записей «ключ-значение» передаются в средство сопоставления, но, кроме того, ...

hadoop mapreduce pull

вопрос задан: 29 December 2015 21:54

0

ответов

Узлы данных не запущены

Я пытаюсь настроить версию Hadoop 0.20.203.0 в псевдораспределенной конфигурации, используя следующее руководство:http://www.javacodegeeks.com/2012/01/hadoop-modes-explained-standalone.htmlПосле...

hadoop hdfs

вопрос задан: 27 December 2015 09:49

0

ответов

Как напрямую отправить вывод преобразователя -в редюсер другого преобразователя -без сохранения вывода в hdfs

Проблема решена В конце концов проверьте мое решение в Внизу Недавно я пытаюсь запустить пример рекомендателя в листинге 6.1 ~6.4 )chaper6 (из Mahout в действии. Но я столкнулся с проблемой...

hadoop mahout

вопрос задан: 26 December 2015 18:53

0

ответов

Можно ли читать данные MongoDB, обрабатывать их с помощью Hadoop и выводить в RDBS (MySQL)?

Резюме: Можно ли: Импортировать данные в Hadoop с помощью «Коннектора MongoDB для Hadoop». Обработайте его с помощью Hadoop MapReduce. Экспортируйте его с помощью Sqoop за одну транзакцию. Я ...

hadoop mongodb mysql sqoop

вопрос задан: 24 December 2015 22:12

0

ответов

Hadoop: «ОШИБКА: JAVA_HOME не установлен»

Я пытаюсь установить Hadoop на Ubuntu 11.10. Я установил для переменной JAVA_HOME в файле conf / hadoop-env.sh значение: # export JAVA_HOME = / usr / lib / jvm / java-1.6.0-openjdk, а затем выполняю эти команды (...

linux hadoop ubuntu-11.04

вопрос задан: 24 December 2015 16:42

0

ответов

Что такое СДР в искре

Определение гласит: RDD - это неизменяемая распределенная коллекция объектов, я не совсем понимаю, что это значит. Похоже ли это на данные (разделенные объекты), хранящиеся на жестком диске.

rdd apache-spark hadoop scala

вопрос задан: 23 December 2015 10:07

0

ответов

Как получить имена запущенных в данный момент заданий hadoop?

Мне нужно получить список имен заданий, которые в настоящее время выполняются, но hasoop -job list дает мне список идентификаторов заданий. Есть ли способ узнать названия запущенных вакансий? Is there a way to get the job names from ...

hadoop

вопрос задан: 18 November 2015 15:20

0

ответов

Как заставить Spark, Python и MongoDB работать вместе

Я испытываю трудности при правильном соединении этих компонентов. У меня установлена и успешно работает Spark, я могу запускать задания локально, автономно, а также через YARN. Я следовал за ...

pymongo apache-spark hadoop mongodb python

вопрос задан: 17 November 2015 17:58

0

ответов

Namenode не запускается

Я использовал Hadoop в псевдораспределенном режиме и все такое. работал нормально. Но потом мне по какой-то причине пришлось перезагрузить компьютер. И теперь, когда я пытаюсь запустить Namenode и Datanode, я ...

hadoop hdfs

вопрос задан: 10 November 2015 06:41

0

ответов

hadoop dfs -ls complains

Может ли кто-нибудь сообщить мне, что здесь не так? Команда hadoop dfs вроде бы в порядке, но все следующие опции не распознаются. [hadoop-0.20]$bin/hadoop dfs -ls ~/wordcount/input/ ls: Cannot ...

hadoop ls

вопрос задан: 30 October 2015 18:30

0

ответов

Запуск задания mapreduce из eclipse

Я написал программу mapreduce на Java, которую я могу отправить на удаленный кластер, работающий в распределенном режиме. В настоящее время я отправляю задание, используя следующие шаги: экспортировать задание mapreuce в виде jar-файла...

hadoop eclipse mapreduce

вопрос задан: 26 October 2015 14:53

0

ответов

Порт Namenode HDFS по умолчанию - 50070. Но я сталкивался в некоторых местах 8020 или 9000

Когда я настраиваю кластер hadoop, я читаю, что namenode работает на 50070, и я настраиваюсь соответственно, и он работает нормально. Но в некоторых книгах я встречал адрес узла имени: hdfs: // localhost: 9000 / ...

hdfs hadoop

вопрос задан: 18 October 2015 09:26

0

ответов

Могу ли я написать простой текстовый файл HDFS (или локальный) из программы Spark, а не из RDD?

У меня есть программа Spark (в Scala) и SparkContext. Я пишу некоторые файлы с помощью saveAsTextFile в RDD. На моей локальной машине я могу использовать локальный путь к файлу, и он работает с локальной файловой системой. На моем ...

scala hadoop apache-spark

вопрос задан: 6 October 2015 15:27

0

ответов

Hbase быстро подсчитывает количество строк

Прямо сейчас я реализую подсчет строк в ResultScanner следующим образом: (Result rs = scan.next (); rs != ноль; rs = scan.next ()){ число++; } Если данные достигают миллионов, время вычислений велико. I...

bigdata hadoop hbase

вопрос задан: 6 October 2015 02:31

0

ответов

Проверить, существует ли таблица

Каков самый быстрый способ проверить, существует ли таблица Hbase? Глядя на этот api: http://hbase.apache.org/devapidocs/org/apache/hadoop/hbase/client/HBaseAdmin.html Какой из них самый быстрый: ...

java hadoop hbase

вопрос задан: 28 September 2015 18:49

0

ответов

Проблемы с distcp Hadoop из HDFS в Amazon S3

Я пытаюсь переместить данные из HDFS в S3 с помощью distcp. Задание distcp, кажется, выполнено успешно, но на S3 файлы создаются неправильно. Есть две проблемы: Имена файлов и пути не...

amazon-web-services amazon-s3 hadoop

вопрос задан: 9 September 2015 18:14

0

ответов

Что такое Hive :Код возврата 2 из org.apache.hadoop.hive.ql.exec.MapRedTask

Я получаю :FAILED :Execution Error, код возврата 2 от org.apache.hadoop.hive.ql.exec.MapRedTask При попытке сделать копию секционированной таблицы с помощью команд в консоли куста :СОЗДАТЬ...

hadoop hive mapreduce

вопрос задан: 6 September 2015 22:28

0

ответов

Какие хорошие ресурсы для изучения исходного кода Hadoop?

Есть ли какие-нибудь хорошие ресурсы, которые помогли бы мне изучить исходный код Hadoop? Я особенно ищу университетские курсы или исследовательские работы.

hadoop

вопрос задан: 16 August 2015 20:14

0

ответов

Как перезаписать / повторно использовать существующий выходной путь для заданий Hadoop снова и снова

Я хочу перезаписать / повторно использовать существующий выходной каталог при ежедневном выполнении задания Hadoop. Фактически выходной каталог будет хранить итоговые выходные данные о результатах ежедневного выполнения задания. { {1}} Если я укажу то

hadoop rewrite fileoutputstream

вопрос задан: 31 July 2015 13:45