9
ответов

Не удалось загрузить модель pyspark.ml с помощью python-api-клиента livy и оболочки pysaprk [duplicate]

Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
вопрос задан: 25 December 2015 19:56
8
ответов

Apache Spark: тестовый набор данных isEmpty? [Дубликат]

Я новичок в Spark Java API. Я хочу знать, что является лучшим способом проверить, не является ли набор данных пустым? Я попробовал это. if (ds! = null & amp;! ds.takeAsList (1) .isEmpty ()) Кажется, для этого требуется время. Является ...
вопрос задан: 22 September 2015 02:52
6
ответов

Автоматизация QA на [закрытом] приложении Flex

У меня есть Приложение Flex, которое должно быть протестировано, и наш отдел QA действительно непреклонен при использовании некоторой формы автоматизированных инструментов тестирования как QuickTest Pro HP (QTP). Однако QTP требует что Вы...
вопрос задан: 29 September 2009 14:13
5
ответов

Масштабируемое устройство хранения данных изображения

Я в настоящее время разрабатываю архитектуру для веб-приложения, которое должно также обеспечить некоторое устройство хранения данных изображения. Пользователи смогут загрузить фотографии как одну из основной характеристики сервиса...
вопрос задан: 15 August 2015 11:56
5
ответов

Hadoop put vs copyFromLocal [дубликат]

Тем не менее, я смущен, какая разница между put и copyFromLocal. Много форум и блог сообщают, что оба они одинаковы и ничего не имеют. Может быть, у вас есть лучшая идея и какая точка зрения ...
вопрос задан: 18 October 2011 18:29
4
ответа

Есть ли какие-либо существующие пакетные решения для агрегирования файла журнала?

Я хочу экспортировать из нескольких файлов журнала узлов (в моем апачском доступе случая и журналах ошибок) и агрегат что данные в пакете как запланированное задание. Я видел несколько решений та работа с потоковой передачей...
вопрос задан: 1 March 2010 20:33
3
ответа

Создать список файлов hdfs из RemoteIterator [duplicate]

У вас возникли проблемы с созданием списка файлов из RemoteIterator Spark, итерации объекта каталога HDFS с использованием hdfs listFiles. Я могу использовать hasNext (), но я просто хочу, чтобы иметь возможность обрабатывать ...
вопрос задан: 25 September 2015 03:50
3
ответа

Есть ли какая-либо распределенная файловая система, которая работает на Windows кроме Hadoop? [закрытый]

Я отчаянно пытаюсь находить любой DFS, который поддерживает Windows. Единственное таким DFS является Hadoop HDFS, но очень трудно развернуть его другое большое количество машин Windows, потому что он требует Cygwin + SSH. Почти...
вопрос задан: 25 June 2010 11:48
3
ответа

Запись данных к Hadoop

Я должен записать данные в в Hadoop (HDFS) из внешних источников как поле окон. Прямо сейчас я копировал данные на namenode и использовал помещенную команду HDFS для поглощения его в кластер...
вопрос задан: 7 October 2009 18:22
2
ответа

В чем разница между Hadoop fs и обычными командами Unix?

Я новичок в Hadoop и HDFS, я пытаюсь понять, почему нужны команды Hadoop fs, а не просто использование эквивалентов команд Unix. Кажется, они оба работают, моей первой мыслью была команда Hadoop ...
вопрос задан: 16 April 2019 23:07
2
ответа

Hadoop не использует файлы конфигурации?

Я развертываю Hadoop на работе, и я несколько раз искал некоторые проблемы. Вчера он работал отлично, но сегодня что-то странное происходит. У меня есть hasoop.tmp.dir, установленный в файле core-site.xml ...
вопрос задан: 14 July 2018 00:24
2
ответа

Как скопировать файлы из одного каталога HDFS в другой HDFS Dir в искровом / скале ETL Job [duplicate]

У меня есть работа Spark ETL в процессе нужно скопировать из одного hdfs-каталога в другой каталог hdfs с помощью java / scala-клиента, каков эффективный способ копирования? Я ищу способ, если что-то в ...
вопрос задан: 12 January 2018 15:08
2
ответа

Почему Apache Spark быстрее, чем Hadoop MapReduce [дубликат]

Я уже тестировал Apache Spark и Hadoop MapReduce с помощью TestDFSIO. Целью является тестирование производительности узкого места ввода-вывода в сети. Это приводит к тому, что Apache Spark работает быстрее, чем Hadoop. ...
вопрос задан: 16 August 2015 11:16
2
ответа

Можно ли удалить каталог HDFS с помощью Apache Spark (Java)? [Дубликат]

Можно ли удалить тест каталога (hdfs: // localhost: 8020 / test), если он существует? благодаря
вопрос задан: 27 February 2015 16:26
2
ответа

Каков должен быть hadoop.tmp.dir?

Hadoop имеет параметр конфигурации hadoop.tmp.dir, который, согласно документации, является '"Основой для других временных каталогов". Я предполагаю, этот путь относится к локальной файловой системе. Я установил это значение к/...
вопрос задан: 26 January 2015 14:49
2
ответа

Проблема с копированием локальных данных на HDFS на кластере Hadoop использование Amazon EC2/S3

Я имею, устанавливают кластер Hadoop, содержащий 5 узлов на Amazon EC2. Теперь, когда я вхожу в систему в Главный узел и отправляю следующую команду bin/hadoop банка <программа> .jar <arg1> <arg2> и...
вопрос задан: 9 June 2010 21:02
1
ответ

Как загрузить CSV-файл из hdfs в таблицу hbase с помощью Dimporttsv

Я пытаюсь загрузить CSV-файл в таблицу hbase, используя команду оболочки Dimporttsv. Файлы CSV находятся в директории в моих hdfs (/ csvFiles) файл CSV был сгенерирован из таблицы MySQL со следующим ...
вопрос задан: 28 March 2019 02:52
1
ответ

Удаляемая таблица Hive не удаляет файлы в HDFS. Любые решения?

При удалении управляемых таблиц из куста связанные с ним файлы из hdf не удаляются (в лазурных блоках данных). Я получаю следующую ошибку: [Simba] SparkJDBCDriver ОШИБКА обрабатывается ...
вопрос задан: 18 March 2019 21:43
1
ответ

Как удалить ОШИБКУ start-dfs.sh в Hadoop-3.2.0

Получение следующих ошибок при запуске start-dfs.sh для запуска сервисов hadoop: Запуск namenodes на [localhost] ОШИБКА: Попытка работать с hdfs namenode от имени root ОШИБКА: но нет ...
вопрос задан: 27 February 2019 12:45
1
ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...
вопрос задан: 23 February 2019 18:32
1
ответ

Задание Spark не работает, когда JAR находится в HDFS

Я пытаюсь запустить искровое задание в автономном режиме, но команда не получает файл JAR из HDFS. JAR присутствует в папке HDFS, и он работает нормально, когда я запускаю его в локальном режиме. Ниже ...
вопрос задан: 19 January 2019 12:03
1
ответ

MapReduce Задача прыгает с 0% до 100% сразу без вывода

Я пытаюсь реализовать базовую Java-программу MapReduce, чтобы узнать максимальную температуру из заданного набора данных. Моя карта отображается как выполняющаяся пошагово (0%, 10%, 18%, 27%, ... 100%), но ...
вопрос задан: 19 January 2019 03:47
1
ответ

объединить строку с помощью команды hdfs

Я должен скопировать много файлов из одного места в формате hdfs в другое. Я написал команду для определения «исходных» файлов: hdfs dfs -ls / archive / reports / some_dir | awk '{print $ 6, $ 7, $ 8}' | grep 2019-01-1 ...
вопрос задан: 16 January 2019 23:58
1
ответ

Путь хранилища кустов Apache по умолчанию в HDFS

Я впервые установил HIVE на 3-узловом кластере CentOS 7 для целей POC. HIVE устанавливается внутри корневой папки пользователя (hduser1) и указывается в файле .bashrc. export HIVE_HOME = / home / hduser1 / ...
вопрос задан: 16 January 2019 22:48
1
ответ

Запуск счетчика слов MapReduce в Hadoop выдает сообщение об исключении: система не может найти указанный путь

это мой первый вопрос о переполнении стека. Я настроил свой кластер с одним узлом hadoop (2.9.2) в псевдораспределенном режиме. Когда я пытаюсь запустить Jadoop Jar C: /MapReduceClient.jar wordcount / input_dir / ...
вопрос задан: 16 January 2019 18:58
1
ответ

Расширение DefaultCodec для поддержки сжатия Zip для файла Hadoop

У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
вопрос задан: 13 July 2018 21:38
1
ответ

Вставить в таблицу улья не работает

У меня есть прямая таблица hive, когда я вставляю в эту таблицу, я получаю следующую ошибку. Выполняется команда kill, а число маркеров и редукторов - 0. Обновление, которое я использовал ...
вопрос задан: 13 July 2018 09:55
1
ответ

Почему первое чтение в hdfs с искрою всегда длиннее? [Дубликат]

Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...
вопрос задан: 25 January 2018 12:41
1
ответ

Можно ли запустить Hadoop в псевдораспределенной работе без HDFS?

Я изучаю варианты запуска приложения Hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все ...
вопрос задан: 23 May 2017 11:53
1
ответ

Почему Spark дважды читает HDFS? [Дубликат]

У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....
вопрос задан: 12 August 2016 18:47