2
ответа

Hadoop Hbase: Распространяющиеся семейства столбца через таблицы или нет

Документация Hbase проясняет, что необходимо сгруппировать подобные столбцы в семейства столбца, потому что физическое устройство хранения данных сделано семейством столбца. Но что означает поместить два столбца...
вопрос задан: 25 March 2009 11:16
2
ответа

Архитектура Amazon S3 [закрывается]

В то время как сообщение http://highscalability.com/amazon-architecture объясняет архитектуру Amazon в целом, я интересуюсь знанием, как Amazon S3 реализован. Некоторые мои предположения...
вопрос задан: 19 February 2009 06:57
1
ответ

Невозможно построить куб с помощью Apache Kylin

Я установил Apache Kylin в образ HDP Sandbox от Hortonworks. После этого я подключил Apache Kylin к нашему хранилищу данных Microsoft SQL, и когда я пытаюсь построить куб, процесс завершается ошибкой ....
вопрос задан: 25 June 2019 20:45
1
ответ

Улей на спарк - почему не «выбрать *» Spawn Spark приложение / исполнителей?

Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...
вопрос задан: 29 March 2019 16:23
1
ответ

Как узнать значения mapred-сайта на кластере Amazon EMR?

У меня были проблемы с памятью, поэтому я посмотрел значения параметров по умолчанию, такие как: mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts в документации Amazon ...
вопрос задан: 26 March 2019 20:24
1
ответ

Удаляемая таблица Hive не удаляет файлы в HDFS. Любые решения?

При удалении управляемых таблиц из куста связанные с ним файлы из hdf не удаляются (в лазурных блоках данных). Я получаю следующую ошибку: [Simba] SparkJDBCDriver ОШИБКА обрабатывается ...
вопрос задан: 18 March 2019 21:43
1
ответ

как работает hive без файла hive-site.xml?

Я пытаюсь настроить улей на моем местном. Я запустил все процессы Hadoop и настроил путь {hive} / bin. В командной строке я могу запускать команды улья, создавать и читать таблицы. Мои вопросы - 1) это ...
вопрос задан: 18 March 2019 18:37
1
ответ

Найдите второе место по зарплате в каждом отделе, используя rank / density_rank в улье

Это были два вопроса, которые мне задавали во время собеседования, но единственное условие - использовать rank / dens_rank. Найдите второе место по зарплате в каждом отделе, используя rank / dens_rank в улье. ...
вопрос задан: 18 March 2019 11:48
1
ответ

Сертификация HortonWorks или Cloudera [закрыто]

Компании Hortonworks и Cloudera теперь объединены, поэтому какую сертификацию лучше пройти? Пожалуйста, поделитесь своими мыслями об этом.
вопрос задан: 11 March 2019 20:40
1
ответ

Транзакции на уровне строк в улье

Я новичок в HiveQL. Когда я создавал таблицу, я понял, что нам нужно сохранять ИСТИНА в некоторых свойствах транзакций. Затем я рассмотрел, что это такое: hive > set hive.support ....
вопрос задан: 4 March 2019 12:33
1
ответ

Как загрузить несколько файлов Json (которые могут иметь разные поля) в одну таблицу кустов

У меня есть два файла JSON, которые создаются в два разных дня. Оба они подпадают под одну и ту же спецификацию бизнеса. Поэтому я хочу вставить в одну таблицу улья. Как это можно сделать? Сценарий: ...
вопрос задан: 3 March 2019 10:28
1
ответ

Предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы»

Я использую PySpark и не устанавливал Hadoop как таковой. Я получаю это предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы». Нужно ли устанавливать Hadoop, если да, то как ...
вопрос задан: 3 March 2019 08:29
1
ответ

я установил Hadoop в Windows, но при запуске примера hadoop не удалось

Я готов установить hadoop в Windows, 4 демона запущены, когда я запускаю демонстрационный jar% HADOOP_PREFIX% \ share \ hadoop \ mapreduce \ hadoop-mapreduce-examples-2.5.0.jar wordcount /myfile.txt / out Это ...
вопрос задан: 2 March 2019 02:58
1
ответ

Как удалить ОШИБКУ start-dfs.sh в Hadoop-3.2.0

Получение следующих ошибок при запуске start-dfs.sh для запуска сервисов hadoop: Запуск namenodes на [localhost] ОШИБКА: Попытка работать с hdfs namenode от имени root ОШИБКА: но нет ...
вопрос задан: 27 February 2019 12:45
1
ответ

версия hadoop - fairscheduler-saidump.log (нет такого файла или каталога)

Я попытался установить hadoop-3.2.0 на Linux Mint. Все идет хорошо. Также java 11.0.2 устанавливается так: $ java -version java версия "11.0.2" 2018-10-16 LTS Java (TM) SE Runtime Environment
вопрос задан: 22 February 2019 13:36
1
ответ

Не удается создать кластер Dataproc при установке свойства fs.defaultFS?

Это уже было предметом обсуждения в предыдущем посте, однако я не убежден в ответах, так как документы Google указывают, что можно создать кластер с настройкой fs.defaultFS ...
вопрос задан: 19 February 2019 21:39
1
ответ

Hortonworks webhdfs Я пытаюсь перечислить все папки, которые будут работать на консоли Hortonworks, используя команду curl, но не в C #

Я пытаюсь перечислить имя папки, используя webhdfs в C #. URL работает нормально, используя curl в песочнице, но не в C # на моем ноутбуке. Сообщение об ошибке - SocketException: попытка подключения не удалась, потому что ...
вопрос задан: 19 January 2019 09:18
1
ответ

MapReduce Задача прыгает с 0% до 100% сразу без вывода

Я пытаюсь реализовать базовую Java-программу MapReduce, чтобы узнать максимальную температуру из заданного набора данных. Моя карта отображается как выполняющаяся пошагово (0%, 10%, 18%, 27%, ... 100%), но ...
вопрос задан: 19 January 2019 03:47
1
ответ

Настройка и настройка Hadoop

C: \ hadoop-2.3.0 \ bin> hadoop Системе не удается найти указанный путь. Ошибка: JAVA_HOME неправильно установлен. Пожалуйста, обновите C: \ hadoop-2.3.0 \ conf \ hadoop-env.c Использование: hadoop [--config confdir] ...
вопрос задан: 18 January 2019 15:56
1
ответ

Как добавить схему в файл из другого файла в spark Scala

Я работаю в Spark и использую Scala. У меня есть два CSV-файла, один с именами столбцов, а другой с данными, как я могу объединить их оба, чтобы я мог создать результирующий файл со схемой ...
вопрос задан: 18 January 2019 12:18
1
ответ

Путаница с внешними столами в улье

Я создал внешнюю таблицу улья, используя следующую команду: use hive2; создать внешнюю таблицу depTable (depId int comment 'Это уникальный идентификатор для каждого dep', строка depName, строка местоположения) ...
вопрос задан: 18 January 2019 05:11
1
ответ

Запустите MapReduce Jar в облачных данных Spring

Мне нужно запустить весеннее загрузочное приложение mapreduce в облачном потоке данных Spring. Обычно приложения, зарегистрированные в scdf, выполняются с помощью команды "java -jar jar-name". Но моя программа это mapreduce и ...
вопрос задан: 18 January 2019 04:53
1
ответ

Несколько картографов записывают вывод в один файл

я новичок в hadoop, и меня поразила проблема. У меня есть случай использования, когда я хочу запустить задание только на карте для файла размером около 2 ГБ. Я создал 4 разделения размером 512 МБ, используя CombineHiveInputFormat и ...
вопрос задан: 17 January 2019 04:18
1
ответ

объединить строку с помощью команды hdfs

Я должен скопировать много файлов из одного места в формате hdfs в другое. Я написал команду для определения «исходных» файлов: hdfs dfs -ls / archive / reports / some_dir | awk '{print $ 6, $ 7, $ 8}' | grep 2019-01-1 ...
вопрос задан: 16 January 2019 23:58
1
ответ

Путь хранилища кустов Apache по умолчанию в HDFS

Я впервые установил HIVE на 3-узловом кластере CentOS 7 для целей POC. HIVE устанавливается внутри корневой папки пользователя (hduser1) и указывается в файле .bashrc. export HIVE_HOME = / home / hduser1 / ...
вопрос задан: 16 January 2019 22:48
1
ответ

Запуск счетчика слов MapReduce в Hadoop выдает сообщение об исключении: система не может найти указанный путь

это мой первый вопрос о переполнении стека. Я настроил свой кластер с одним узлом hadoop (2.9.2) в псевдораспределенном режиме. Когда я пытаюсь запустить Jadoop Jar C: /MapReduceClient.jar wordcount / input_dir / ...
вопрос задан: 16 January 2019 18:58
1
ответ

S3 параллельное чтение и запись производительности?

Рассмотрим сценарий, в котором Spark (или любая другая среда Hadoop) считывает большой (скажем, 1 ТБ) файл с S3. Как несколько искровых исполнителей параллельно читают очень большой файл из S3. В HDFS это очень ...
вопрос задан: 15 January 2019 19:02
1
ответ

Расширение DefaultCodec для поддержки сжатия Zip для файла Hadoop

У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
вопрос задан: 13 July 2018 21:38
1
ответ

Передайте необязательное свойство из основного рабочего процесса oozie в subworkflow

У меня есть HDFS_file_path или свойство, которое необходимо передать из workflow-1 в common_subworkflow. У меня также есть workflow-2, который не имеет этого свойства или HDFS_file_path. Но workflow-2 вызывает ...
вопрос задан: 13 July 2018 20:24
1
ответ

Spark Standalone Cluster: настройка распределенной файловой системы

Я только что перешел из локальной установки Spark в автономный кластер Spark. Очевидно, что загрузка и сохранение файлов больше не работает. Я понимаю, что мне нужно использовать Hadoop для сохранения и загрузки файлов. Мой ...
вопрос задан: 13 July 2018 19:47