Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
Я новичок в Spark Java API. Я хочу знать, что является лучшим способом проверить, не является ли набор данных пустым? Я попробовал это. if (ds! = null & amp;! ds.takeAsList (1) .isEmpty ()) Кажется, для этого требуется время. Является ...
У меня есть Приложение Flex, которое должно быть протестировано, и наш отдел QA действительно непреклонен при использовании некоторой формы автоматизированных инструментов тестирования как QuickTest Pro HP (QTP). Однако QTP требует что Вы...
Я в настоящее время разрабатываю архитектуру для веб-приложения, которое должно также обеспечить некоторое устройство хранения данных изображения. Пользователи смогут загрузить фотографии как одну из основной характеристики сервиса...
Тем не менее, я смущен, какая разница между put и copyFromLocal. Много форум и блог сообщают, что оба они одинаковы и ничего не имеют. Может быть, у вас есть лучшая идея и какая точка зрения ...
Я хочу экспортировать из нескольких файлов журнала узлов (в моем апачском доступе случая и журналах ошибок) и агрегат что данные в пакете как запланированное задание. Я видел несколько решений та работа с потоковой передачей...
У вас возникли проблемы с созданием списка файлов из RemoteIterator Spark, итерации объекта каталога HDFS с использованием hdfs listFiles. Я могу использовать hasNext (), но я просто хочу, чтобы иметь возможность обрабатывать ...
Я отчаянно пытаюсь находить любой DFS, который поддерживает Windows. Единственное таким DFS является Hadoop HDFS, но очень трудно развернуть его другое большое количество машин Windows, потому что он требует Cygwin + SSH. Почти...
Я должен записать данные в в Hadoop (HDFS) из внешних источников как поле окон. Прямо сейчас я копировал данные на namenode и использовал помещенную команду HDFS для поглощения его в кластер...
Я новичок в Hadoop и HDFS, я пытаюсь понять, почему нужны команды Hadoop fs, а не просто использование эквивалентов команд Unix. Кажется, они оба работают, моей первой мыслью была команда Hadoop ...
Я развертываю Hadoop на работе, и я несколько раз искал некоторые проблемы. Вчера он работал отлично, но сегодня что-то странное происходит. У меня есть hasoop.tmp.dir, установленный в файле core-site.xml ...
У меня есть работа Spark ETL в процессе нужно скопировать из одного hdfs-каталога в другой каталог hdfs с помощью java / scala-клиента, каков эффективный способ копирования? Я ищу способ, если что-то в ...
Я уже тестировал Apache Spark и Hadoop MapReduce с помощью TestDFSIO. Целью является тестирование производительности узкого места ввода-вывода в сети. Это приводит к тому, что Apache Spark работает быстрее, чем Hadoop. ...
Hadoop имеет параметр конфигурации hadoop.tmp.dir, который, согласно документации, является '"Основой для других временных каталогов". Я предполагаю, этот путь относится к локальной файловой системе. Я установил это значение к/...
Я имею, устанавливают кластер Hadoop, содержащий 5 узлов на Amazon EC2. Теперь, когда я вхожу в систему в Главный узел и отправляю следующую команду bin/hadoop банка <программа> .jar <arg1> <arg2> и...
Я пытаюсь загрузить CSV-файл в таблицу hbase, используя команду оболочки Dimporttsv. Файлы CSV находятся в директории в моих hdfs (/ csvFiles) файл CSV был сгенерирован из таблицы MySQL со следующим ...
При удалении управляемых таблиц из куста связанные с ним файлы из hdf не удаляются (в лазурных блоках данных). Я получаю следующую ошибку: [Simba] SparkJDBCDriver ОШИБКА обрабатывается ...
Получение следующих ошибок при запуске start-dfs.sh для запуска сервисов hadoop: Запуск namenodes на [localhost] ОШИБКА: Попытка работать с hdfs namenode от имени root ОШИБКА: но нет ...
Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...
Я пытаюсь запустить искровое задание в автономном режиме, но команда не получает файл JAR из HDFS. JAR присутствует в папке HDFS, и он работает нормально, когда я запускаю его в локальном режиме. Ниже ...
Я пытаюсь реализовать базовую Java-программу MapReduce, чтобы узнать максимальную температуру из заданного набора данных. Моя карта отображается как выполняющаяся пошагово (0%, 10%, 18%, 27%, ... 100%), но ...
Я должен скопировать много файлов из одного места в формате hdfs в другое. Я написал команду для определения «исходных» файлов: hdfs dfs -ls / archive / reports / some_dir | awk '{print $ 6, $ 7, $ 8}' | grep 2019-01-1 ...
Я впервые установил HIVE на 3-узловом кластере CentOS 7 для целей POC. HIVE устанавливается внутри корневой папки пользователя (hduser1) и указывается в файле .bashrc. export HIVE_HOME = / home / hduser1 / ...
это мой первый вопрос о переполнении стека. Я настроил свой кластер с одним узлом hadoop (2.9.2) в псевдораспределенном режиме. Когда я пытаюсь запустить Jadoop Jar C: /MapReduceClient.jar wordcount / input_dir / ...
У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
У меня есть прямая таблица hive, когда я вставляю в эту таблицу, я получаю следующую ошибку. Выполняется команда kill, а число маркеров и редукторов - 0. Обновление, которое я использовал ...
Я пытался измерить разницу между временами чтения между csv и паркет с искровым. Я знаю, что паркет работает быстрее, но мне нужно иметь несколько показателей для отчета. Я заметил, что когда я прочитал ...
Я изучаю варианты запуска приложения Hadoop в локальной системе. Как и во многих приложениях, первые несколько выпусков должны работать на одном узле, если мы можем использовать все ...
У меня есть приложение Spark, которое считывает набор данных из HDFS и выполняет сложную операцию с использованием UDF. Это код: val ds = spark.read.json ("hdfs: //hdfshost/path/to/dataset.json") ....