9
ответов

Не удалось загрузить модель pyspark.ml с помощью python-api-клиента livy и оболочки pysaprk [duplicate]

Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
вопрос задан: 25 December 2015 19:56
8
ответов

Apache Spark: тестовый набор данных isEmpty? [Дубликат]

Я новичок в Spark Java API. Я хочу знать, что является лучшим способом проверить, не является ли набор данных пустым? Я попробовал это. if (ds! = null & amp;! ds.takeAsList (1) .isEmpty ()) Кажется, для этого требуется время. Является ...
вопрос задан: 22 September 2015 02:52
5
ответов

Hadoop put vs copyFromLocal [дубликат]

Тем не менее, я смущен, какая разница между put и copyFromLocal. Много форум и блог сообщают, что оба они одинаковы и ничего не имеют. Может быть, у вас есть лучшая идея и какая точка зрения ...
вопрос задан: 18 October 2011 18:29
3
ответа

Создать список файлов hdfs из RemoteIterator [duplicate]

У вас возникли проблемы с созданием списка файлов из RemoteIterator Spark, итерации объекта каталога HDFS с использованием hdfs listFiles. Я могу использовать hasNext (), но я просто хочу, чтобы иметь возможность обрабатывать ...
вопрос задан: 25 September 2015 03:50
2
ответа

В чем разница между Hadoop fs и обычными командами Unix?

Я новичок в Hadoop и HDFS, я пытаюсь понять, почему нужны команды Hadoop fs, а не просто использование эквивалентов команд Unix. Кажется, они оба работают, моей первой мыслью была команда Hadoop ...
вопрос задан: 16 April 2019 23:07
2
ответа

Hadoop не использует файлы конфигурации?

Я развертываю Hadoop на работе, и я несколько раз искал некоторые проблемы. Вчера он работал отлично, но сегодня что-то странное происходит. У меня есть hasoop.tmp.dir, установленный в файле core-site.xml ...
вопрос задан: 14 July 2018 00:24
2
ответа

Как скопировать файлы из одного каталога HDFS в другой HDFS Dir в искровом / скале ETL Job [duplicate]

У меня есть работа Spark ETL в процессе нужно скопировать из одного hdfs-каталога в другой каталог hdfs с помощью java / scala-клиента, каков эффективный способ копирования? Я ищу способ, если что-то в ...
вопрос задан: 12 January 2018 15:08
2
ответа

Почему Apache Spark быстрее, чем Hadoop MapReduce [дубликат]

Я уже тестировал Apache Spark и Hadoop MapReduce с помощью TestDFSIO. Целью является тестирование производительности узкого места ввода-вывода в сети. Это приводит к тому, что Apache Spark работает быстрее, чем Hadoop. ...
вопрос задан: 16 August 2015 11:16
2
ответа

Можно ли удалить каталог HDFS с помощью Apache Spark (Java)? [Дубликат]

Можно ли удалить тест каталога (hdfs: // localhost: 8020 / test), если он существует? благодаря
вопрос задан: 27 February 2015 16:26
1
ответ

Как загрузить CSV-файл из hdfs в таблицу hbase с помощью Dimporttsv

Я пытаюсь загрузить CSV-файл в таблицу hbase, используя команду оболочки Dimporttsv. Файлы CSV находятся в директории в моих hdfs (/ csvFiles) файл CSV был сгенерирован из таблицы MySQL со следующим ...
вопрос задан: 28 March 2019 02:52
1
ответ

Удаляемая таблица Hive не удаляет файлы в HDFS. Любые решения?

При удалении управляемых таблиц из куста связанные с ним файлы из hdf не удаляются (в лазурных блоках данных). Я получаю следующую ошибку: [Simba] SparkJDBCDriver ОШИБКА обрабатывается ...
вопрос задан: 18 March 2019 21:43
1
ответ

Как удалить ОШИБКУ start-dfs.sh в Hadoop-3.2.0

Получение следующих ошибок при запуске start-dfs.sh для запуска сервисов hadoop: Запуск namenodes на [localhost] ОШИБКА: Попытка работать с hdfs namenode от имени root ОШИБКА: но нет ...
вопрос задан: 27 February 2019 12:45
1
ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...
вопрос задан: 23 February 2019 18:32
1
ответ

Задание Spark не работает, когда JAR находится в HDFS

Я пытаюсь запустить искровое задание в автономном режиме, но команда не получает файл JAR из HDFS. JAR присутствует в папке HDFS, и он работает нормально, когда я запускаю его в локальном режиме. Ниже ...
вопрос задан: 19 January 2019 12:03
1
ответ

MapReduce Задача прыгает с 0% до 100% сразу без вывода

Я пытаюсь реализовать базовую Java-программу MapReduce, чтобы узнать максимальную температуру из заданного набора данных. Моя карта отображается как выполняющаяся пошагово (0%, 10%, 18%, 27%, ... 100%), но ...
вопрос задан: 19 January 2019 03:47
1
ответ

объединить строку с помощью команды hdfs

Я должен скопировать много файлов из одного места в формате hdfs в другое. Я написал команду для определения «исходных» файлов: hdfs dfs -ls / archive / reports / some_dir | awk '{print $ 6, $ 7, $ 8}' | grep 2019-01-1 ...
вопрос задан: 16 January 2019 23:58
1
ответ

Путь хранилища кустов Apache по умолчанию в HDFS

Я впервые установил HIVE на 3-узловом кластере CentOS 7 для целей POC. HIVE устанавливается внутри корневой папки пользователя (hduser1) и указывается в файле .bashrc. export HIVE_HOME = / home / hduser1 / ...
вопрос задан: 16 January 2019 22:48
1
ответ

Запуск счетчика слов MapReduce в Hadoop выдает сообщение об исключении: система не может найти указанный путь

это мой первый вопрос о переполнении стека. Я настроил свой кластер с одним узлом hadoop (2.9.2) в псевдораспределенном режиме. Когда я пытаюсь запустить Jadoop Jar C: /MapReduceClient.jar wordcount / input_dir / ...
вопрос задан: 16 January 2019 18:58
1
ответ

Расширение DefaultCodec для поддержки сжатия Zip для файла Hadoop

У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
вопрос задан: 13 July 2018 21:38
1
ответ

Вставить в таблицу улья не работает

У меня есть прямая таблица hive, когда я вставляю в эту таблицу, я получаю следующую ошибку. Выполняется команда kill, а число маркеров и редукторов - 0. Обновление, которое я использовал ...
вопрос задан: 13 July 2018 09:55
1
ответ

Почему первое чтение в hdfs с искрою всегда длиннее? [Дубликат]

Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...
вопрос задан: 25 January 2018 12:41
1
ответ

Почему Spark дважды читает HDFS? [Дубликат]

У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....
вопрос задан: 12 August 2016 18:47
1
ответ

Что такое безопасный режим в Hadoop? [Дубликат]

Я изучаю Hadoop, и я правильно установил кластер Hadoop узла (версия: 2.7.3) на моем Mac. Я уже загрузил несколько текстовых файлов в свой HDFS, и сегодня, когда я пытаюсь создать новый каталог ...
вопрос задан: 4 August 2015 15:37
1
ответ

Что такое пространство имен в HDFS [дубликат]

Помогите мне понять разницу между пространством имен и метаданными. Что такое содержимое, находящееся в пространстве имен и использование пространства имен
вопрос задан: 28 May 2014 23:25
0
ответов

Sentry не может синхронизировать ALC между файлами HDFS и таблицами Hive

Sentry не может отправить полный снимок изображения из списка контроля доступа к таблице HIVE в HDFS, так что ACL HDFS и ACL таблицы кустов не синхронизируются. Я использую Clouder CDH 5.14.2, который содержит часового ...
вопрос задан: 30 June 2019 04:42
0
ответов

Проверьте зашифрованные данные RPC в движении на HDFS / YARN / Spark / Hbase

У нас есть особое требование проверять / проверять данные в движении, когда зашифрованные RPC потоки данных для всей связи с клиентом, а также внутри больших компонентов данных, таких как HBase / Phoenix / HDFS / YARN / Hive ...
вопрос задан: 27 March 2019 08:02
0
ответов

Можно ли восстановить удаленную папку с помощью -skipTrash из HDFS?

Можно ли восстановить папку, удаленную с помощью -skipTrash. Мы остановили hdfs через 5 минут после. Наш кластер находится в режиме HA, и мы не понимаем, как мы можем использовать файл fsimage для восстановления. Мы пытались использовать эти руководства и
вопрос задан: 25 March 2019 16:40
0
ответов

Hadoop - главный узел дисковой части кластера хранения внезапно. Как мне это убрать?

У меня есть 8 подчиненных узлов и 1 мастер-узел. До недавнего времени только подчиненные узлы были частью моей настройки HDFS. Однако, в последнее время, главный узел тоже появился там с диском, который намного меньше. ...
вопрос задан: 11 March 2019 13:58
0
ответов

HDP Sandbox SQOOP не удалось из-за ошибки разрешения

Ниже приведено сообщение об ошибке: Невозможно переместить источник hdfs: //sandbox-hdp.hortonworks.com: 8020 / user / maria_dev / DimDepartmentGroup / part-m-00000 в место назначения hdfs: //sandbox-hdp.hortonworks.com: 8020 / ...
вопрос задан: 5 March 2019 20:22
0
ответов

Hadoop namenode не может загрузить fsimage

У меня проблемы с запуском hdfs. Мой кластер состоит из 3 узлов на облачной платформе Google. 1 - активный наменоде. Предполагается, что узел 2 будет резервным наменодом и датододом. Узел 3 - это просто датанода. ...
вопрос задан: 5 March 2019 15:26