Я слышал новый термин Data Lake. Я гуглил и понял, что Озеро данных - это крупномасштабное хранилище и механизм обработки. Озеро данных предоставляет «огромное хранилище для любых данных, огромных ...
У меня есть несколько таблиц в кусте с таким же префиксом, как показано ниже .. temp_table_name temp_table_add temp_table_area В моей базе данных есть несколько сотен таких таблиц, как и многие другие таблицы. Я ...
В чем преимущество файла последовательности Hadoop по сравнению с плоским файлом HDFS (Text )? Каким образом файл последовательности эффективен? Небольшие файлы можно объединять и записывать в файл последовательности, но то же самое можно...
Как HDFS хранит данные? Я хочу хранить огромные файлы в сжатом виде. Например: у меня есть файл размером 1,5 ГБ с коэффициентом репликации по умолчанию 3. Для этого требуется (1,5) * 3 = 4,5 ГБ места. Я ...
У меня есть два отдельных класса Java для выполнения двух разных заданий mapreduce. Я могу запустить их независимо. Входные файлы, с которыми они работают, одинаковы для обоих заданий. Итак, мой вопрос...
Я нахожусь в сценарии, где у меня есть два задания mapreduce. Мне удобнее работать с python, и я планирую использовать его для написания скриптов mapreduce и использовать для этого потоковую передачу hadoop. есть ли удобный ...
Namenode в архитектуре Hadoop - это единственная точка отказа. Как люди, у которых есть большие кластеры Hadoop, справляются с этой проблемой? Есть ли принятое в отрасли решение, которое сработало ...
Как Storm сравнивается с Hadoop? Hadoop, по-видимому, является стандартом де-факто для крупномасштабной пакетной обработки с открытым исходным кодом, имеет ли Storm какие-либо преимущества перед hadoop? или они совершенно разные?
Я пытался запустить пример программы в Hadoop, приведенный здесь, когда я пытаюсь запустить ее, я получаю org.a pache.hadoop.mapred.FileAlreadyExistsException (скрытый) bin / hadoop jar ...
Когда я запускаю hadoopnode1 с помощью start-all.sh, он успешно запускает службы на главном и ведомый (см. вывод команды jps для ведомого). Но когда я пытаюсь увидеть активные узлы на экране администратора...
Согласно Hadoop: The Definitive Guide. Новый API поддерживает итерацию как «push», так и «pull». В обоих API пары записей «ключ-значение» передаются в средство сопоставления, но, кроме того, ...
Я пытаюсь настроить версию Hadoop 0.20.203.0 в псевдораспределенной конфигурации, используя следующее руководство:http://www.javacodegeeks.com/2012/01/hadoop-modes-explained-standalone.htmlПосле...
Проблема решена В конце концов проверьте мое решение в Внизу Недавно я пытаюсь запустить пример рекомендателя в листинге 6.1 ~6.4 )chaper6 (из Mahout в действии. Но я столкнулся с проблемой...
Резюме: Можно ли: Импортировать данные в Hadoop с помощью «Коннектора MongoDB для Hadoop». Обработайте его с помощью Hadoop MapReduce. Экспортируйте его с помощью Sqoop за одну транзакцию. Я ...
Я пытаюсь установить Hadoop на Ubuntu 11.10. Я установил для переменной JAVA_HOME в файле conf / hadoop-env.sh значение: # export JAVA_HOME = / usr / lib / jvm / java-1.6.0-openjdk, а затем выполняю эти команды (...
Определение гласит: RDD - это неизменяемая распределенная коллекция объектов, я не совсем понимаю, что это значит. Похоже ли это на данные (разделенные объекты), хранящиеся на жестком диске.
Мне нужно получить список имен заданий, которые в настоящее время выполняются, но hasoop -job list дает мне список идентификаторов заданий. Есть ли способ узнать названия запущенных вакансий?
Is there a way to get the job names from ...
Я испытываю трудности при правильном соединении этих компонентов. У меня установлена и успешно работает Spark, я могу запускать задания локально, автономно, а также через YARN. Я следовал за ...
Я использовал Hadoop в псевдораспределенном режиме и все такое. работал нормально. Но потом мне по какой-то причине пришлось перезагрузить компьютер. И теперь, когда я пытаюсь запустить Namenode и Datanode, я ...
Может ли кто-нибудь сообщить мне, что здесь не так? Команда hadoop dfs вроде бы в порядке, но все следующие опции не распознаются. [hadoop-0.20]$bin/hadoop dfs -ls ~/wordcount/input/
ls: Cannot ...
Я написал программу mapreduce на Java, которую я могу отправить на удаленный кластер, работающий в распределенном режиме. В настоящее время я отправляю задание, используя следующие шаги: экспортировать задание mapreuce в виде jar-файла...
Когда я настраиваю кластер hadoop, я читаю, что namenode работает на 50070, и я настраиваюсь соответственно, и он работает нормально. Но в некоторых книгах я встречал адрес узла имени: hdfs: // localhost: 9000 / ...
У меня есть программа Spark (в Scala) и SparkContext. Я пишу некоторые файлы с помощью saveAsTextFile в RDD. На моей локальной машине я могу использовать локальный путь к файлу, и он работает с локальной файловой системой. На моем ...
Прямо сейчас я реализую подсчет строк в ResultScanner следующим образом: (Result rs = scan.next (); rs != ноль; rs = scan.next ()){ число++; } Если данные достигают миллионов, время вычислений велико. I...
Каков самый быстрый способ проверить, существует ли таблица Hbase? Глядя на этот api: http://hbase.apache.org/devapidocs/org/apache/hadoop/hbase/client/HBaseAdmin.html
Какой из них самый быстрый: ...
Я пытаюсь переместить данные из HDFS в S3 с помощью distcp. Задание distcp, кажется, выполнено успешно, но на S3 файлы создаются неправильно. Есть две проблемы: Имена файлов и пути не...
Я получаю :FAILED :Execution Error, код возврата 2 от org.apache.hadoop.hive.ql.exec.MapRedTask При попытке сделать копию секционированной таблицы с помощью команд в консоли куста :СОЗДАТЬ...
Есть ли какие-нибудь хорошие ресурсы, которые помогли бы мне изучить исходный код Hadoop? Я особенно ищу университетские курсы или исследовательские работы.
Я хочу перезаписать / повторно использовать существующий выходной каталог при ежедневном выполнении задания Hadoop.
Фактически выходной каталог будет хранить итоговые выходные данные о результатах ежедневного выполнения задания. { {1}} Если я укажу то