0
ответов

Неизвестное исключение хоста с HA пряжей

Я получаю неизвестное исключение для хоста, службы имен правильно поддерживаются в hdfs-site.xml и core-site.xml. 019-01-14 03: 46: 48,564 FATAL [main] org.apache.hadoop.mapreduce.v2.app ....
вопрос задан: 16 January 2019 14:51
0
ответов

Datanode отказал в связи с namenode, потому что хост не включен в список включения

Я столкнулся с проблемой при создании кластера hadoop. Это моя версия hadoop: это исключение: ниже моя конфигурация: hdfs-site.xml: core-site.xml: white_hosts: black_hosts is ...
вопрос задан: 16 January 2019 11:58
0
ответов

Как я могу подключить Hive Metastore с помощью Kerberos и SSL?

Я подключаюсь к Hive Metastore с аутентификацией Kerberos. Я попробовал несколько конфигураций, и мое текущее исключение - это. java.lang.IllegalArgumentException: java.net.UnknownHostException: & ...
вопрос задан: 16 January 2019 10:05
0
ответов

Путаница между кучей контейнера и кучей jvm в Apache Hadoop 2.7.x

Я настроил Apache Hadoop 2.7.x с 3 рабочими. Я столкнулся с некоторым исключением, таким как java.lang.OutOfMemoryError: Превышен лимит накладных расходов GC После некоторого поиска я обнаружил, что должен увеличить ...
вопрос задан: 16 January 2019 05:27
0
ответов

разница между командами запуска и выполнения утилиты в pig

Команда Apache Pig Utility дает два одинаковых типа команд run и exec для запуска pig-сценария в grunt shell, я смотрю, разница только в том, что run дает гибкость разработчику при взаимодействии
вопрос задан: 15 January 2019 18:51
0
ответов

Как мне обновить только определенные разделы в спарк?

У меня есть разделенный фрейм данных, сохраненный в формате hdf. Я должен периодически загружать новые данные из темы кафки и обновлять данные hdfs. Данные просты: это просто количество полученных твитов ...
вопрос задан: 15 January 2019 15:46
0
ответов

Путаница между оперативными и аналитическими большими данными и в какой категории работает Hadoop?

Я не могу обернуть голову вокруг основной теоретической концепции «Оперативные и аналитические большие данные». По мне: Оперативные Большие Данные: Филиал, где мы можем выполнять операции чтения / записи на больших ...
вопрос задан: 12 January 2019 06:50
0
ответов

Apache crunch не может записать вывод

Может быть, это упущение, но я не могу определить, почему Apache Crunch не записывает вывод в файл для очень простой программы, которую я пишу для изучения Crunch. Вот код: import org.apache.crunch ....
вопрос задан: 31 December 2018 15:57
0
ответов

Pydoop на Amazon EMR

Как мне использовать Pydoop на Amazon EMR? Я пытался гуглить эту тему безрезультатно: это вообще возможно?
вопрос задан: 14 December 2018 12:23
0
ответов

Как я могу быть уверен, что данные распределяются равномерно по узлы hadoop?

Если я скопирую данные из локальной системы в HDFS, Могу ли я быть уверен, что он равномерно распределен по узлам? PS HDFS гарантирует, что каждый блок будет храниться на 3 разных узлах. Но означает ли это, что ...
вопрос задан: 8 December 2018 19:17
0
ответов

Лучшие практики Amazon MapReduce для анализа журналов

Я анализирую журналы доступа, созданные Apache, Nginx, Darwin (сервер потокового видео), и собираю статистику для каждого доставленного файла по дате. /реферер/юзерагент. Тонны логов генерируются каждый...
вопрос задан: 8 November 2018 22:31
0
ответов

Mapreduce для чайников

Хорошо, я пытаюсь изучить Hadoop и mapreduce. Я действительно хочу начать с mapreduce, и то, что я нахожу, - это много-много упрощенных примеров преобразователей и редукторов и т. Д. Однако я заметил, что они отсутствуют ...
вопрос задан: 17 October 2018 21:14
0
ответов

Фильтровать строку на основе слова

У меня есть работа свиньи, где мне нужно отфильтровать данные, находя слово в нем, вот фрагмент a = load '/ home / user / filename' Используя поросяту (','); B = Foreach A Generate $ 27, $ 38; C = Фильтр B по ...
вопрос задан: 1 October 2018 18:36
0
ответов

Как вывести список всех файлов в каталоге и его подкаталогах в hdfs hadoop

У меня есть папка в hdfs, в которой есть две подпапки, каждая из которых имеет около 30 подпапок, каждая из которых, наконец, содержит файлы xml. Я хочу перечислить все файлы xml, указав только путь к основной папке. Локально я...
вопрос задан: 20 July 2018 13:10
0
ответов

Python, определяющий общие столбцы

Мне нужно определить общие столбцы из 2 / нескольких разных фреймов. Имена столбцов будут разными. Нужно знать, есть ли в библиотеке какая-либо библиотека, которая имеет интеллект для этого. Если пользовательский подход, как я могу обратиться ...
вопрос задан: 13 July 2018 12:49
0
ответов

Как использовать Sqoop для объединения нескольких таблиц MySQL в одну таблицу Hive

У меня есть две таблицы MySQL в разных экземплярах MySQL, они одинаковы в структуре таблицы. Как я могу использовать Sqoop, чтобы объединить их в одну таблицу? Возможно, существуют дубликаты записей в ...
вопрос задан: 13 July 2018 11:52
0
ответов

В менеджере ресурсов кластера менеджера клаудера постоянно работает .. есть ли какое-либо решение для этого

Я пытаюсь решить проблему для менеджера ресурсов в пряже Cloudera, чтобы активно, но она часто падает
вопрос задан: 13 July 2018 05:50
0
ответов

нулевые значения в некоторых столбцах фреймов данных, при чтении их из hbase

Я читаю данные из hbase, используя искру sql. один столбец содержит данные xml. когда размер xml мал, я могу читать правильные данные. но как только размер увеличивается слишком сильно, некоторые столбцы в dataframe ...
вопрос задан: 13 July 2018 05:38
0
ответов

Где Hive хранит файлы в HDFS?

Я хотел бы знать, как найти соответствие между таблицами Hive и фактическими файлами HDFS (или, скорее, каталогами), которые они представляют. Мне нужен прямой доступ к файлам таблиц. Где хранится Hive ...
вопрос задан: 31 May 2018 21:33
0
ответов

Получить разные идентификаторы из улья?

У меня есть данные следующим образом: идентификатор имени штата 1 Ким Нью-Йорк 1 Дэнни Нью-Джерси 1 Ким в 2 Том Па 2 Сам CA 3 ...
вопрос задан: 21 May 2018 10:47
0
ответов

Итерация дважды по значениям (MapReduce)

Я получаю итератор в качестве аргумента, и я хотел бы повторить итерацию по значениям дважды . public void reduce (ключ Pair , значения Iterator , контекст контекста) ...
вопрос задан: 3 April 2018 12:24
0
ответов

Различия между Amazon S3 и S3n в Hadoop

Когда я подключил свой кластер Hadoop к хранилищу Amazon и загрузил файлы в HDFS, я обнаружил, что s3: // не работает. При поиске помощи в Интернете я обнаружил, что могу использовать S3n. Когда я использовал S3n это ...
вопрос задан: 16 March 2018 08:51
0
ответов

Нахождение среднего числа с помощью MapReduce

Я пытался написать код для нахождения среднего числа с помощью MapReduce. Я пытаюсь использовать глобальные счетчики для достижения своей цели, но не могу установить значение счетчика в методе карты...
вопрос задан: 21 February 2018 02:29
0
ответов

hbase.MasterNotRunningException при создании таблицы в Hbase

ERROR: org.apache.hadoop.hbase.MasterNotRunningException: Retried 7 times Я получил эту ошибку, когда создаю таблицу в HBase. Я привожу следующий способ создания таблицы с помощью HBase. ...
вопрос задан: 16 February 2018 20:51
0
ответов

Hive: создание таблиц с несколькими файлами с несколькими каталогами

Я хочу создать таблицу Hive, в которой входные текстовые файлы перемещаются по нескольким подкаталогам в формате hdf. Вот пример, который я имею в hdfs: / testdata / user / Jan / part-0001 / testdata / user / Feb / part -...
вопрос задан: 8 February 2018 20:34
0
ответов

Поиск / поиск файла и содержимого файла в Hadoop

В настоящее время я работаю над проектом с использованием Hadoop DFS. Я заметил, что в Hadoop Shell нет команды поиска или поиска. Есть ли способ найти файл (например, testfile.doc) в Hadoop DFS? Есть ...
вопрос задан: 22 December 2017 03:06
0
ответов

Задание по уменьшению карты hadoop с входом HDFS и выходом HBASE

Я новичок в hadoop. У меня есть задание MapReduce, которое должно получать входные данные из Hdfs и записывать выходные данные редуктора в Hbase. Я не нашел хорошего примера. Вот код, ошибка ...
вопрос задан: 2 December 2017 07:45
0
ответов

Что такое файлы SUCCESS и part-r-00000 в hadoop

Хотя я часто использую Hadoop на своем компьютере с Ubuntu, я никогда не задумывался о файлах SUCCESS и part-r-00000. Вывод всегда находится в файле part-r-00000, но какой смысл в файле SUCCESS? ...
вопрос задан: 1 December 2017 04:06
0
ответов

Объединение двух наборов данных в Mapreduce/Hadoop

Кто-нибудь знает, как реализовать операцию Natural -Join между двумя наборами данных в Hadoop? Точнее, вот что мне точно нужно сделать :У меня есть два набора данных :точечная информация…
вопрос задан: 8 October 2017 18:15
0
ответов

Как выбрать между Cassandra, Membase, Hadoop, MongoDB, RDBMS и т. Д.? [закрыто]

Есть ли статья / блог о том, когда использовать Cassandra, Membase, Hadoop или старые добрые реляционные базы данных? Есть ли статья, в которой обсуждаются сильные и слабые стороны каждого из них, и по каким сценариям…
вопрос задан: 22 September 2017 18:01