Ошибка при запуске фляги с искровым сеансом с поддержкой поддержки улей. Функциональность jar состоит в том, чтобы читать из Hive и возвращает набор Dataset, содержащий записи. В коде используется Spark Session ...
Мы запускаем два кластера Hadoop, на котором работает только Hive, а другой работает только Spark. Теперь я пытаюсь прочитать таблицу улья, читая файлы ORC непосредственно в искровом режиме. sparkSession.read.orc (...
Поскольку у меня нет режима upsert в искровом sql, я пытаюсь выполнить операцию слияния в самой Spark sql. Моя таблица Target будет Oracle. У меня есть 2 DFF, один - набор данных History, а другой - инкрементный ...
Я новичок в bigdata. Я хотел бы знать разницу между запущенными запросами в иске, используя hivecontext, и запускать запросы в улье с использованием искрового двигателя. Что лучше и почему?
Я создаю одну таблицу как формат файла ORC и вставляю данные: hive & gt; создать таблицу test1 (id int, строку имени), хранящуюся как ORC; Улей & GT; вставить в значения test1 (1, «Riyaz»); Улей & GT; вставлять в ...
Мое образование - 4 недели в мире Hadoop. Плескавшийся немного в Hive, Pig и Hadoop с помощью Hadoop VM Cloudera. Прочитали газету Google на MapReduce и GFS (ссылка PDF). Я понимаю это - Свинья...
Учитывая ключ для некоторого значения реестра (например, HKEY_LOCAL_MACHINE\blah\blah\blah\foo), как может я: Безопасно решите, что такой ключ существует. Программно (т.е. с кодом) получают его значение. Я имею...
Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
table like: id, name.salary 1, abc, 25 2, acd, 45 then, если я хочу обновить его через искру df.write .mode (SaveMode.Append) .jdbc (conn_str, tableName, prop), но suing saveMode мы не могу ...
Я изучаю Spark SQL, и я экспериментировал с языком запросов Hive (HQL) и DataFrames. Некоторое время назад я провел эксперимент, сравнивающий производительность выполнения запросов с помощью HiveContext ...
Я выполняю задание Hadoop с помощью Hive на самом деле, который предполагается к uniq строкам во многих текстовых файлах. На уменьшать шаге это выбирает последний раз запись с меткой времени для каждого ключа. Делает гарантию Hadoop...
У меня есть следующая таблица в hive user-id, user-name, user-address,clicks,impressions,page-id,page-name Мне нужно найти 5 лучших пользователей[user-id,user-name,user-address] по кликам для каждой страницы [page-id,...
Я хочу проигнорировать мусорное ведро и obj папки из моего репозитория мерзавца. Как я узнал, нет никакого простого способа сделать это в .gitignore. Так, есть ли какой-либо другой путь? Используя чистое решение в Visual Studio?
Я интересуюсь обнаружением, как недавно выпущенный (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Hive выдерживает сравнение с HBase с точки зрения производительности. Подобный SQL интерфейс, используемый Hive...
Для реализации суррогатных ключей в нашем хранилище данных улья я сузил до 2 вариантов: 1) отражение ('java.util.UUID', 'randomUUID') 2) INPUT__FILE__NAME + BLOCK__OFFSET__INSIDE__FILE Какой из ...
У меня есть следующий запрос выбора имени, trip_id из основного порядка по имени. Я хочу получить количество всех записей и всех столбцов в таблицах. Например, если у меня есть 200 строк в таблице, я хочу ...
Так что, как и большинство корпоративных компаний, мы создали хранилище данных в Hadoop, в котором пользовательские запросы поддерживаются в Hive, и теперь, спустя несколько месяцев и приемочного тестирования, все немного удивляются ...
У меня есть 2 таблицы A и B A B Требование состоит в том, чтобы объединить обе таблицы, используя столбец идентификатора, и, кроме того, если значение выбранного имени имеет другую запись с другим идентификатором, эта запись должна ...
У меня есть пример записи файла, подобный этому 2018-01-1509.05.540000000000001000000751111EMAIL@AAA.BB.CL, и вышеупомянутая запись взята из файла с фиксированной длиной, и я хотел разбить на основе длин и когда я ...
Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...
Моя таблица CREATE TABLE `db.t` (строка` ctn`, строка `balance`) PARTITIONED BY (дата` time_key`) Я пытаюсь изменить time_key на строку ALTER TABLE db.t CHANGE time_key time_key string; Но получить ...
Я работаю над решением, в котором У меня будет кластер Hadoop с запущенным Hive, и я хочу отправлять задания и запросы кустов из приложения .NET для обработки и получать уведомления, когда они будут выполнены. Я ...
Я пытаюсь написать пользовательскую функцию, которая позволит вам ввести дату (current_date) и диапазон, и запрос вернет следующие даты вместе с тем, сколько дат прошло. Как ...
У меня есть дата в файле с этим форматом: вс 28 января 01:00:22 2018, но мне нужно преобразовать ее в формат ГГГГММДД, чтобы дата использовалась в качестве раздела. Я пытался использовать эту команду, но возвращение ...
Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...
Я пытался сформулировать запрос, но каким-то образом не получил требуемый результат, поэтому отправил Я новичок в улье. Извиняюсь, если это очень просто. Исходные данные: Ik - приоритет - ind1 - ind2 - дата 1 - A - ...
Я пытаюсь вычислить количество (уникальных) появлений каждого элемента в столбце таблицы Hive относительно других столбцов. Я пробовал этот запрос, но у меня есть это выражение ошибки не в пользовательском ключе GROUP BY ...
я создаю сценарий оболочки, который должен выполнять основные запросы HIVE и утверждать, что с ожидаемым результатом откуда я должен начать в сценарии оболочки.? заранее спасибо
У меня есть куча точек данных для каждого есть два столбца: start_dt и end_dt. Мне интересно, как я могу разделить промежуток времени между start_dt и end_dt на 5 минут? Например, id ++++ ...
У меня есть сценарий использования, где я должен вычислить несопоставимые строки (исключая совпадающие записи) из двух разных разделов из таблицы разделенных кустов. Давайте предположим, что есть секционированная таблица с именем ...