5
ответов

Ошибка при создании экземпляра «org.apache.spark.sql.hive.HiveSessionStateBuilder» - попытка запуска Spark Session с поддержкой поддержки Hive [duplicate]

Ошибка при запуске фляги с искровым сеансом с поддержкой поддержки улей. Функциональность jar состоит в том, чтобы читать из Hive и возвращает набор Dataset, содержащий записи. В коде используется Spark Session ...
вопрос задан: 14 January 2017 23:28
5
ответов

Не удалось получить имена фактических столбцов из файла ORC в Spark [duplicate]

Мы запускаем два кластера Hadoop, на котором работает только Hive, а другой работает только Spark. Теперь я пытаюсь прочитать таблицу улья, читая файлы ORC непосредственно в искровом режиме. sparkSession.read.orc (...
вопрос задан: 10 October 2016 12:45
4
ответа

Как выполнить операцию слияния в искре [дубликат]

Поскольку у меня нет режима upsert в искровом sql, я пытаюсь выполнить операцию слияния в самой Spark sql. Моя таблица Target будет Oracle. У меня есть 2 DFF, один - набор данных History, а другой - инкрементный ...
вопрос задан: 6 January 2016 22:33
4
ответа

hivecontext против искрового двигателя в улье [дубликат]

Я новичок в bigdata. Я хотел бы знать разницу между запущенными запросами в иске, используя hivecontext, и запускать запросы в улье с использованием искрового двигателя. Что лучше и почему?
вопрос задан: 24 July 2015 18:02
4
ответа

Почему ORC-таблица извлекает вставленные данные, но не загружает данные в куст [duplicate]

Я создаю одну таблицу как формат файла ORC и вставляю данные: hive & gt; создать таблицу test1 (id int, строку имени), хранящуюся как ORC; Улей & GT; вставить в значения test1 (1, «Riyaz»); Улей & GT; вставлять в ...
вопрос задан: 6 January 2015 15:11
4
ответа

Различие между Свиньей и Hive? Почему оба имеют? [закрытый]

Мое образование - 4 недели в мире Hadoop. Плескавшийся немного в Hive, Pig и Hadoop с помощью Hadoop VM Cloudera. Прочитали газету Google на MapReduce и GFS (ссылка PDF). Я понимаю это - Свинья...
вопрос задан: 5 January 2015 03:23
4
ответа

Как считать значение из реестра Windows

Учитывая ключ для некоторого значения реестра (например, HKEY_LOCAL_MACHINE\blah\blah\blah\foo), как может я: Безопасно решите, что такой ключ существует. Программно (т.е. с кодом) получают его значение. Я имею...
вопрос задан: 21 June 2009 22:05
3
ответа

Как вставить данные о кустах в таблицу Teradata с использованием искровой оболочки [duplicate]

Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...
вопрос задан: 13 March 2016 14:08
3
ответа

Как обновить таблицу через искровое sql? [Дубликат]

table like: id, name.salary 1, abc, 25 2, acd, 45 then, если я хочу обновить его через искру df.write .mode (SaveMode.Append) .jdbc (conn_str, tableName, prop), но suing saveMode мы не могу ...
вопрос задан: 25 February 2016 19:02
3
ответа

Spark SQL-Running Query в HiveContext vs DataFrame [дубликат]

Я изучаю Spark SQL, и я экспериментировал с языком запросов Hive (HQL) и DataFrames. Некоторое время назад я провел эксперимент, сравнивающий производительность выполнения запросов с помощью HiveContext ...
вопрос задан: 7 February 2016 19:15
3
ответа

Используя Hadoop, мои редукторы, как гарантируют, получат все записи с тем же ключом?

Я выполняю задание Hadoop с помощью Hive на самом деле, который предполагается к uniq строкам во многих текстовых файлах. На уменьшать шаге это выбирает последний раз запись с меткой времени для каждого ключа. Делает гарантию Hadoop...
вопрос задан: 5 May 2015 21:33
3
ответа

Hive получение n лучших записей в запросе group by

У меня есть следующая таблица в hive user-id, user-name, user-address,clicks,impressions,page-id,page-name Мне нужно найти 5 лучших пользователей[user-id,user-name,user-address] по кликам для каждой страницы [page-id,...
вопрос задан: 22 February 2012 07:27
3
ответа

Как я мог проигнорировать мусорное ведро и obj папки из репозитория мерзавца?

Я хочу проигнорировать мусорное ведро и obj папки из моего репозитория мерзавца. Как я узнал, нет никакого простого способа сделать это в .gitignore. Так, есть ли какой-либо другой путь? Используя чистое решение в Visual Studio?
вопрос задан: 27 February 2010 12:42
3
ответа

Как Hive выдерживает сравнение с HBase?

Я интересуюсь обнаружением, как недавно выпущенный (http://mirror.facebook.com/facebook/hive/hadoop-0.17/) Hive выдерживает сравнение с HBase с точки зрения производительности. Подобный SQL интерфейс, используемый Hive...
вопрос задан: 23 August 2008 12:22
2
ответа

Можно ли использовать UUID в качестве суррогатного ключа для хранилища данных в улье?

Для реализации суррогатных ключей в нашем хранилище данных улья я сузил до 2 вариантов: 1) отражение ('java.util.UUID', 'randomUUID') 2) INPUT__FILE__NAME + BLOCK__OFFSET__INSIDE__FILE Какой из ...
вопрос задан: 11 March 2019 14:29
2
ответа

Как получить количество всех записей и других записей в одном запросе

У меня есть следующий запрос выбора имени, trip_id из основного порядка по имени. Я хочу получить количество всех записей и всех столбцов в таблицах. Например, если у меня есть 200 строк в таблице, я хочу ...
вопрос задан: 23 February 2019 19:17
2
ответа

Улей - это хорошо подходит для создания хранилища данных?

Так что, как и большинство корпоративных компаний, мы создали хранилище данных в Hadoop, в котором пользовательские запросы поддерживаются в Hive, и теперь, спустя несколько месяцев и приемочного тестирования, все немного удивляются ...
вопрос задан: 17 January 2019 17:15
2
ответа

SQL Join :: Выборка записей вне условия соединения

У меня есть 2 таблицы A и B A B Требование состоит в том, чтобы объединить обе таблицы, используя столбец идентификатора, и, кроме того, если значение выбранного имени имеет другую запись с другим идентификатором, эта запись должна ...
вопрос задан: 16 January 2019 19:14
2
ответа

Вставка файла фиксированной ширины в Hive с использованием scala spark

У меня есть пример записи файла, подобный этому 2018-01-1509.05.540000000000001000000751111EMAIL@AAA.BB.CL, и вышеупомянутая запись взята из файла с фиксированной длиной, и я хотел разбить на основе длин и когда я ...
вопрос задан: 13 July 2018 10:58
2
ответа

Ошибка запуска Pyspark - Ошибка hive.HiveSessionState [duplicate]

Я установил Spark 2.1 с Cloudera. Когда я запускаю искровую оболочку из / usr / bin / spark2-shell, она запускается (с scala). Когда я запускаю Pyspark, я получаю эту проблему sudo -u hdfs ./pyspark2. Я получаю: ...
вопрос задан: 29 March 2016 16:38
2
ответа

hive не может изменить тип столбца Недопустимая ссылка столбца [duplicate]

Моя таблица CREATE TABLE `db.t` (строка` ctn`, строка `balance`) PARTITIONED BY (дата` time_key`) Я пытаюсь изменить time_key на строку ALTER TABLE db.t CHANGE time_key time_key string; Но получить ...
вопрос задан: 17 July 2015 13:04
2
ответа

Как подключиться к Hadoop / Hive из .NET

Я работаю над решением, в котором У меня будет кластер Hadoop с запущенным Hive, и я хочу отправлять задания и запросы кустов из приложения .NET для обработки и получать уведомления, когда они будут выполнены. Я ...
вопрос задан: 16 August 2010 14:03
1
ответ

Uive UDF с приращением даты

Я пытаюсь написать пользовательскую функцию, которая позволит вам ввести дату (current_date) и диапазон, и запрос вернет следующие даты вместе с тем, сколько дат прошло. Как ...
вопрос задан: 26 June 2019 23:21
1
ответ

Как преобразовать дату в строку в формате ГГГГММДД?

У меня есть дата в файле с этим форматом: вс 28 января 01:00:22 2018, но мне нужно преобразовать ее в формат ГГГГММДД, чтобы дата использовалась в качестве раздела. Я пытался использовать эту команду, но возвращение ...
вопрос задан: 31 March 2019 02:37
1
ответ

Улей на спарк - почему не «выбрать *» Spawn Spark приложение / исполнителей?

Я установил Hive (v2.3.4) на Spark (exec engine). Это запускает приложение / исполнители spark: выберите count (*) из s.t, где h_code = 'KGD78' и h_no = '265' Почему это не запускает приложение spark / ...
вопрос задан: 29 March 2019 16:23
1
ответ

Hive Query: рассчитать максимальное значение индикатора на основе приоритета и даты

Я пытался сформулировать запрос, но каким-то образом не получил требуемый результат, поэтому отправил Я новичок в улье. Извиняюсь, если это очень просто. Исходные данные: Ik - приоритет - ind1 - ind2 - дата 1 - A - ...
вопрос задан: 26 March 2019 19:19
1
ответ

считать отдельную проблему в улье

Я пытаюсь вычислить количество (уникальных) появлений каждого элемента в столбце таблицы Hive относительно других столбцов. Я пробовал этот запрос, но у меня есть это выражение ошибки не в пользовательском ключе GROUP BY ...
вопрос задан: 26 March 2019 13:40
1
ответ

Как тестировать Hive CRUD-запросы из сценариев Shell

я создаю сценарий оболочки, который должен выполнять основные запросы HIVE и утверждать, что с ожидаемым результатом откуда я должен начать в сценарии оболочки.? заранее спасибо
вопрос задан: 25 March 2019 10:47
1
ответ

Создать 5-минутный интервал между двумя отметками времени

У меня есть куча точек данных для каждого есть два столбца: start_dt и end_dt. Мне интересно, как я могу разделить промежуток времени между start_dt и end_dt на 5 минут? Например, id ++++ ...
вопрос задан: 24 March 2019 05:55
1
ответ

Вычисление несовпадающих строк в многораздельной таблице в улье

У меня есть сценарий использования, где я должен вычислить несопоставимые строки (исключая совпадающие записи) из двух разных разделов из таблицы разделенных кустов. Давайте предположим, что есть секционированная таблица с именем ...
вопрос задан: 20 March 2019 16:10