Документация Hbase проясняет, что необходимо сгруппировать подобные столбцы в семейства столбца, потому что физическое устройство хранения данных сделано семейством столбца. Но что означает поместить два столбца...
В то время как сообщение http://highscalability.com/amazon-architecture объясняет архитектуру Amazon в целом, я интересуюсь знанием, как Amazon S3 реализован. Некоторые мои предположения...
Я установил Apache Kylin в образ HDP Sandbox от Hortonworks. После этого я подключил Apache Kylin к нашему хранилищу данных Microsoft SQL, и когда я пытаюсь построить куб, процесс завершается ошибкой ....
Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...
У меня были проблемы с памятью, поэтому я посмотрел значения параметров по умолчанию, такие как: mapreduce.map.memory.mb mapreduce.reduce.memory.mb mapreduce.map.java.opts в документации Amazon ...
При удалении управляемых таблиц из куста связанные с ним файлы из hdf не удаляются (в лазурных блоках данных). Я получаю следующую ошибку: [Simba] SparkJDBCDriver ОШИБКА обрабатывается ...
Я пытаюсь настроить улей на моем местном. Я запустил все процессы Hadoop и настроил путь {hive} / bin. В командной строке я могу запускать команды улья, создавать и читать таблицы. Мои вопросы - 1) это ...
Это были два вопроса, которые мне задавали во время собеседования, но единственное условие - использовать rank / dens_rank. Найдите второе место по зарплате в каждом отделе, используя rank / dens_rank в улье. ...
Я новичок в HiveQL. Когда я создавал таблицу, я понял, что нам нужно сохранять ИСТИНА в некоторых свойствах транзакций. Затем я рассмотрел, что это такое: hive > set hive.support ....
У меня есть два файла JSON, которые создаются в два разных дня. Оба они подпадают под одну и ту же спецификацию бизнеса. Поэтому я хочу вставить в одну таблицу улья. Как это можно сделать? Сценарий: ...
Я использую PySpark и не устанавливал Hadoop как таковой. Я получаю это предупреждение Hadoop «Невозможно загрузить библиотеку native-hadoop для вашей платформы». Нужно ли устанавливать Hadoop, если да, то как ...
Я готов установить hadoop в Windows, 4 демона запущены, когда я запускаю демонстрационный jar% HADOOP_PREFIX% \ share \ hadoop \ mapreduce \ hadoop-mapreduce-examples-2.5.0.jar wordcount /myfile.txt / out Это ...
Получение следующих ошибок при запуске start-dfs.sh для запуска сервисов hadoop: Запуск namenodes на [localhost] ОШИБКА: Попытка работать с hdfs namenode от имени root ОШИБКА: но нет ...
Я попытался установить hadoop-3.2.0 на Linux Mint. Все идет хорошо. Также java 11.0.2 устанавливается так: $ java -version java версия "11.0.2" 2018-10-16 LTS Java (TM) SE Runtime Environment
Это уже было предметом обсуждения в предыдущем посте, однако я не убежден в ответах, так как документы Google указывают, что можно создать кластер с настройкой fs.defaultFS ...
Я пытаюсь перечислить имя папки, используя webhdfs в C #. URL работает нормально, используя curl в песочнице, но не в C # на моем ноутбуке. Сообщение об ошибке - SocketException: попытка подключения не удалась, потому что ...
Я пытаюсь реализовать базовую Java-программу MapReduce, чтобы узнать максимальную температуру из заданного набора данных. Моя карта отображается как выполняющаяся пошагово (0%, 10%, 18%, 27%, ... 100%), но ...
Я работаю в Spark и использую Scala. У меня есть два CSV-файла, один с именами столбцов, а другой с данными, как я могу объединить их оба, чтобы я мог создать результирующий файл со схемой ...
Я создал внешнюю таблицу улья, используя следующую команду: use hive2; создать внешнюю таблицу depTable (depId int comment 'Это уникальный идентификатор для каждого dep', строка depName, строка местоположения) ...
Мне нужно запустить весеннее загрузочное приложение mapreduce в облачном потоке данных Spring. Обычно приложения, зарегистрированные в scdf, выполняются с помощью команды "java -jar jar-name". Но моя программа это mapreduce и ...
я новичок в hadoop, и меня поразила проблема. У меня есть случай использования, когда я хочу запустить задание только на карте для файла размером около 2 ГБ. Я создал 4 разделения размером 512 МБ, используя CombineHiveInputFormat и ...
Я должен скопировать много файлов из одного места в формате hdfs в другое. Я написал команду для определения «исходных» файлов: hdfs dfs -ls / archive / reports / some_dir | awk '{print $ 6, $ 7, $ 8}' | grep 2019-01-1 ...
Я впервые установил HIVE на 3-узловом кластере CentOS 7 для целей POC. HIVE устанавливается внутри корневой папки пользователя (hduser1) и указывается в файле .bashrc. export HIVE_HOME = / home / hduser1 / ...
это мой первый вопрос о переполнении стека. Я настроил свой кластер с одним узлом hadoop (2.9.2) в псевдораспределенном режиме. Когда я пытаюсь запустить Jadoop Jar C: /MapReduceClient.jar wordcount / input_dir / ...
Рассмотрим сценарий, в котором Spark (или любая другая среда Hadoop) считывает большой (скажем, 1 ТБ) файл с S3. Как несколько искровых исполнителей параллельно читают очень большой файл из S3. В HDFS это очень ...
У меня есть код Spark, который считывает два файла из HDFS (заголовочный файл и файл body), уменьшает RDD [String] до одного раздела, а затем записывает результат как сжатый файл с помощью GZip ...
У меня есть HDFS_file_path или свойство, которое необходимо передать из workflow-1 в common_subworkflow. У меня также есть workflow-2, который не имеет этого свойства или HDFS_file_path. Но workflow-2 вызывает ...
Я только что перешел из локальной установки Spark в автономный кластер Spark. Очевидно, что загрузка и сохранение файлов больше не работает. Я понимаю, что мне нужно использовать Hadoop для сохранения и загрузки файлов. Мой ...