hdfs - список вопросов по программированию hdfs

9

ответов

Не удалось загрузить модель pyspark.ml с помощью python-api-клиента livy и оболочки pysaprk [duplicate]

Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....

вопрос задан: 25 December 2015 19:56

8

ответов

Apache Spark: тестовый набор данных isEmpty? [Дубликат]

Я новичок в Spark Java API. Я хочу знать, что является лучшим способом проверить, не является ли набор данных пустым? Я попробовал это. if (ds! = null & amp;! ds.takeAsList (1) .isEmpty ()) Кажется, для этого требуется время. Является ...

apache-spark hadoop hdfs

вопрос задан: 22 September 2015 02:52

6

ответов

Автоматизация QA на [закрытом] приложении Flex

У меня есть Приложение Flex, которое должно быть протестировано, и наш отдел QA действительно непреклонен при использовании некоторой формы автоматизированных инструментов тестирования как QuickTest Pro HP (QTP). Однако QTP требует что Вы...

hdfs

вопрос задан: 29 September 2009 14:13

5

ответов

Масштабируемое устройство хранения данных изображения

Я в настоящее время разрабатываю архитектуру для веб-приложения, которое должно также обеспечить некоторое устройство хранения данных изображения. Пользователи смогут загрузить фотографии как одну из основной характеристики сервиса...

storage couchdb hadoop hbase hdfs

вопрос задан: 15 August 2015 11:56

5

ответов

Hadoop put vs copyFromLocal [дубликат]

Тем не менее, я смущен, какая разница между put и copyFromLocal. Много форум и блог сообщают, что оба они одинаковы и ничего не имеют. Может быть, у вас есть лучшая идея и какая точка зрения ...

java hadoop hdfs hadoop2

вопрос задан: 18 October 2011 18:29

4

ответа

Есть ли какие-либо существующие пакетные решения для агрегирования файла журнала?

Я хочу экспортировать из нескольких файлов журнала узлов (в моем апачском доступе случая и журналах ошибок) и агрегат что данные в пакете как запланированное задание. Я видел несколько решений та работа с потоковой передачей...

python export aggregation logfiles hdfs

вопрос задан: 1 March 2010 20:33

3

ответа

Создать список файлов hdfs из RemoteIterator [duplicate]

У вас возникли проблемы с созданием списка файлов из RemoteIterator Spark, итерации объекта каталога HDFS с использованием hdfs listFiles. Я могу использовать hasNext (), но я просто хочу, чтобы иметь возможность обрабатывать ...

scala hadoop hdfs

вопрос задан: 25 September 2015 03:50

3

ответа

Есть ли какая-либо распределенная файловая система, которая работает на Windows кроме Hadoop? [закрытый]

Я отчаянно пытаюсь находить любой DFS, который поддерживает Windows. Единственное таким DFS является Hadoop HDFS, но очень трудно развернуть его другое большое количество машин Windows, потому что он требует Cygwin + SSH. Почти...

windows hadoop dfs hdfs

вопрос задан: 25 June 2010 11:48

3

ответа

Запись данных к Hadoop

Я должен записать данные в в Hadoop (HDFS) из внешних источников как поле окон. Прямо сейчас я копировал данные на namenode и использовал помещенную команду HDFS для поглощения его в кластер...

hadoop hdfs

вопрос задан: 7 October 2009 18:22

2

ответа

В чем разница между Hadoop fs и обычными командами Unix?

Я новичок в Hadoop и HDFS, я пытаюсь понять, почему нужны команды Hadoop fs, а не просто использование эквивалентов команд Unix. Кажется, они оба работают, моей первой мыслью была команда Hadoop ...

hadoop hdfs

вопрос задан: 16 April 2019 23:07

2

ответа

Hadoop не использует файлы конфигурации?

Я развертываю Hadoop на работе, и я несколько раз искал некоторые проблемы. Вчера он работал отлично, но сегодня что-то странное происходит. У меня есть hasoop.tmp.dir, установленный в файле core-site.xml ...

hadoop configuration directory hdfs

вопрос задан: 14 July 2018 00:24

2

ответа

Как скопировать файлы из одного каталога HDFS в другой HDFS Dir в искровом / скале ETL Job [duplicate]

У меня есть работа Spark ETL в процессе нужно скопировать из одного hdfs-каталога в другой каталог hdfs с помощью java / scala-клиента, каков эффективный способ копирования? Я ищу способ, если что-то в ...

apache-spark hadoop hdfs mapr

вопрос задан: 12 January 2018 15:08

2

ответа

Почему Apache Spark быстрее, чем Hadoop MapReduce [дубликат]

Я уже тестировал Apache Spark и Hadoop MapReduce с помощью TestDFSIO. Целью является тестирование производительности узкого места ввода-вывода в сети. Это приводит к тому, что Apache Spark работает быстрее, чем Hadoop. ...

apache-spark hadoop mapreduce hdfs

вопрос задан: 16 August 2015 11:16

2

ответа

Можно ли удалить каталог HDFS с помощью Apache Spark (Java)? [Дубликат]

Можно ли удалить тест каталога (hdfs: // localhost: 8020 / test), если он существует? благодаря

java apache-spark hdfs

вопрос задан: 27 February 2015 16:26

2

ответа

Каков должен быть hadoop.tmp.dir?

Hadoop имеет параметр конфигурации hadoop.tmp.dir, который, согласно документации, является '"Основой для других временных каталогов". Я предполагаю, этот путь относится к локальной файловой системе. Я установил это значение к/...

config hdfs hadoop

вопрос задан: 26 January 2015 14:49

2

ответа

Проблема с копированием локальных данных на HDFS на кластере Hadoop использование Amazon EC2/S3

Я имею, устанавливают кластер Hadoop, содержащий 5 узлов на Amazon EC2. Теперь, когда я вхожу в систему в Главный узел и отправляю следующую команду bin/hadoop банка <программа> .jar <arg1> <arg2> и...

amazon-s3 amazon-ec2 hadoop cloud hdfs

вопрос задан: 9 June 2010 21:02

1

ответ

Как загрузить CSV-файл из hdfs в таблицу hbase с помощью Dimporttsv

Я пытаюсь загрузить CSV-файл в таблицу hbase, используя команду оболочки Dimporttsv. Файлы CSV находятся в директории в моих hdfs (/ csvFiles) файл CSV был сгенерирован из таблицы MySQL со следующим ...

shell csv hdfs hbase

вопрос задан: 28 March 2019 02:52

1

ответ

Удаляемая таблица Hive не удаляет файлы в HDFS. Любые решения?

При удалении управляемых таблиц из куста связанные с ним файлы из hdf не удаляются (в лазурных блоках данных). Я получаю следующую ошибку: [Simba] SparkJDBCDriver ОШИБКА обрабатывается ...

hadoop hive hdfs

вопрос задан: 18 March 2019 21:43

1

ответ

Как удалить ОШИБКУ start-dfs.sh в Hadoop-3.2.0

Получение следующих ошибок при запуске start-dfs.sh для запуска сервисов hadoop: Запуск namenodes на [localhost] ОШИБКА: Попытка работать с hdfs namenode от имени root ОШИБКА: но нет ...

hadoop installation hdfs dfs hadoop3

вопрос задан: 27 February 2019 12:45

1

ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...

apache-spark hive apache-spark-sql hdfs bigdata

вопрос задан: 23 February 2019 18:32

1

ответ

Задание Spark не работает, когда JAR находится в HDFS

Я пытаюсь запустить искровое задание в автономном режиме, но команда не получает файл JAR из HDFS. JAR присутствует в папке HDFS, и он работает нормально, когда я запускаю его в локальном режиме. Ниже ...

apache-spark hdfs spark-submit

вопрос задан: 19 January 2019 12:03

1

ответ

MapReduce Задача прыгает с 0% до 100% сразу без вывода

Я пытаюсь реализовать базовую Java-программу MapReduce, чтобы узнать максимальную температуру из заданного набора данных. Моя карта отображается как выполняющаяся пошагово (0%, 10%, 18%, 27%, ... 100%), но ...

java hadoop hdfs mapreduce

вопрос задан: 19 January 2019 03:47

1

ответ

объединить строку с помощью команды hdfs

Я должен скопировать много файлов из одного места в формате hdfs в другое. Я написал команду для определения «исходных» файлов: hdfs dfs -ls / archive / reports / some_dir | awk '{print $ 6, $ 7, $ 8}' | grep 2019-01-1 ...

hadoop hdfs

вопрос задан: 16 January 2019 23:58

1

ответ

Путь хранилища кустов Apache по умолчанию в HDFS

Я впервые установил HIVE на 3-узловом кластере CentOS 7 для целей POC. HIVE устанавливается внутри корневой папки пользователя (hduser1) и указывается в файле .bashrc. export HIVE_HOME = / home / hduser1 / ...

hadoop hive hdfs

вопрос задан: 16 January 2019 22:48

1

ответ

Запуск счетчика слов MapReduce в Hadoop выдает сообщение об исключении: система не может найти указанный путь

это мой первый вопрос о переполнении стека. Я настроил свой кластер с одним узлом hadoop (2.9.2) в псевдораспределенном режиме. Когда я пытаюсь запустить Jadoop Jar C: /MapReduceClient.jar wordcount / input_dir / ...

mapreduce hdfs yarn hadoop java

вопрос задан: 16 January 2019 18:58

1

ответ

Расширение DefaultCodec для поддержки сжатия Zip для файла Hadoop

У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...

apache-spark hadoop compression hdfs rdd

вопрос задан: 13 July 2018 21:38

1

ответ

Вставить в таблицу улья не работает

У меня есть прямая таблица hive, когда я вставляю в эту таблицу, я получаю следующую ошибку. Выполняется команда kill, а число маркеров и редукторов - 0. Обновление, которое я использовал ...

hadoop hive hdfs mapper reducers

вопрос задан: 13 July 2018 09:55

1

ответ

Почему первое чтение в hdfs с искрою всегда длиннее? [Дубликат]

Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...

apache-spark hdfs parquet

вопрос задан: 25 January 2018 12:41

1

ответ

Можно ли запустить Hadoop в псевдораспределенной работе без HDFS?

Я изучаю варианты запуска приложения Hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все ...

hadoop mapreduce local-storage hdfs

вопрос задан: 23 May 2017 11:53

1

ответ

Почему Spark дважды читает HDFS? [Дубликат]

У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....

apache-spark dataframe apache-spark-sql hdfs apache-spark-dataset

вопрос задан: 12 August 2016 18:47