0
ответов

Эффективное хранение данных в Hive

Как я могу эффективно хранить данные в Hive, а также хранить и извлекать сжатые данные в Hive? В настоящее время я храню его как TextFile. Я просматривал статью Bejoy и обнаружил, что LZO...
вопрос задан: 3 August 2012 17:31
0
ответов

Hive применяет схему во время чтения?

В чем разница и смысл этих двух утверждений, с которыми я столкнулся во время лекции здесь :1. Традиционные базы данных применяют схему во время загрузки. и 2. Hive применяет схему во время...
вопрос задан: 1 August 2012 17:13
0
ответов

Hive QL -Ограничение количества строк для каждого элемента

Если у меня есть несколько элементов, перечисленных в предложении where, как можно ограничить результаты до N для каждого элемента в списке? EX :выберите a _id,b,c, count (*), как sumrequests из таблицы _имя куда а _идентификатор...
вопрос задан: 31 July 2012 23:13
0
ответов

как выбрать данные из улья с определенным разделом?

каждый. вот взаимодействие с ульем :hive> показать разделы TABLENAME pt=2012.07.28.08/_завершено=1 pt=2012.07.28.09/_завершено=1 pt=2012.07.28.10/_завершено=1 пт=2012.07.28.11/...
вопрос задан: 28 July 2012 10:17
0
ответов

SQL-запрос JOIN с таблицей

выберите user _id, prod _и _ts.product _id as product _id, prod _и _ts.timestamps в качестве временных меток из testingtable2 БОКОВОЙ ВИД разнести (куплен _предмет )в разобранном виде _стол как prod _и _ts; Используя вышеизложенное...
вопрос задан: 11 July 2012 14:19
0
ответов

Настройка производительности запроса Hive

У меня есть запрос Hive, который выбирает около 30 столбцов и около 400 000 записей и вставляет их в другую таблицу. У меня есть одно соединение в моем предложении SQL, которое является просто внутренним соединением. Запрос...
вопрос задан: 8 July 2012 23:25
0
ответов

Взорвать массив Struct в Hive

Это приведенная ниже таблица Hive CREATE EXTERNAL TABLE IF NOT EXISTS SampleTable (ПОЛЬЗОВАТЕЛЬ _ID БОЛЬШОЙ, NEW _ПУНКТ МАССИВ> )А это данные в...
вопрос задан: 7 July 2012 21:14
0
ответов

Запрос двух связанных таблиц (Соединения)

Это первая таблица в Hive -. Она содержит информацию о предмете, который мы покупаем. СОЗДАЙТЕ ВНЕШНЮЮ ТАБЛИЦУ, ЕСЛИ НЕ СУЩЕСТВУЕТ Таблица 1 (Это ГЛАВНАЯ таблица, по которой необходимо проводить сравнения) (...
вопрос задан: 6 July 2012 22:44
0
ответов

Результаты запроса Hive имеют вертикальный формат, такой как MySQL «\G»?

Есть ли способ заставить Hive выводить результаты в виде столбцов, как опция «\G», доступная в MySQL? http://dev.mysql.com/doc/refman//5.5/en/mysql-commands.html
вопрос задан: 24 June 2012 18:34
0
ответов

Как скомпилировать пользовательскую функцию Hive

Я пытаюсь скомпилировать эту пользовательскую функцию: package com.dataminelab.hive.udf; импортировать org.apache.hadoop.hive.ql.exec.UDF; импортировать org.apache.hadoop.io.Text; импортировать java.security.*; /** * Вычислить md5 из ...
вопрос задан: 13 June 2012 16:39
0
ответов

Amazon Elastic Map Reduce для анализа журналов s3

Я использую EMR для анализа веб-журналов nginx. Но мне нужно обработать журналы, чтобы они могли разбиваться на строки и столбцы, чтобы упростить запросы. Таким образом, я сделал две таблицы - rawlog, processinglog...
вопрос задан: 12 June 2012 09:12
0
ответов

JSON SerDe для Hive, поддерживающий массивы JSON

Я пробовал JSON SerDe, который Amazon предоставляет для экземпляра EMR и отлично работает, если вам нужно адресовать/ сопоставлять поля словаря JSON со столбцами. Однако я не смог понять, как сделать то же самое...
вопрос задан: 10 June 2012 04:22
0
ответов

Как работать с BIG DATA Data Margin/Fact Table? ( 240 миллионов строк )

У нас есть клиент BI, который ежемесячно генерирует около 40 миллионов строк в своих таблицах базы данных о продажах, созданных на основе их транзакций продаж. Они хотят создать витрину данных о продажах с помощью своих ...
вопрос задан: 7 June 2012 19:13
0
ответов

Как использовать hive с другим пользователем

Я установил Hadoop и Hive на 3 кластера. Обычно я могу использовать Hive и Hadoop, но когда я вхожу в систему с другим пользователем, я не могу использовать Hive. Ошибка: куст > показать таблицы; FAILED: Ошибка в метаданных: ...
вопрос задан: 31 May 2012 15:58
0
ответов

java.sql.SQLException: org.apache.thrift.transport.TTransportException в улье?

Я пытаюсь создать таблицу в улье с помощью java. Я обнаружил java.sql.SQLException: org.apache.thrift.transport.TTransportException при выполнении моего кода. Вот мой код public void createTable(...
вопрос задан: 31 May 2012 10:02
0
ответов

Скользящее среднее SQL

Как создать скользящее среднее в SQL? Текущая таблица: Дата Клики 2012-05-01 2,230 2012-05-02 3,150 2012-05-03 5,520 2012-05-04 1,330 2012-05-05 2,260 ...
вопрос задан: 18 May 2012 02:51
0
ответов

Простой пример запроса hive?

Я пытаюсь преобразовать простой рабочий процесс в oozie. Я пробовал просматривать примеры oozie, но они слишком -ошеломляющие. По сути, я хочу выполнить запрос и вывести результат в текст...
вопрос задан: 8 May 2012 13:24
0
ответов

Как ограничить количество строк для каждого значения поля в SQL?

Например, у меня есть такая таблица в Hive :1 1 1 4 1 8 2 1 2 5 3 1 3 2, и я хочу вернуть только первые две строки каждого уникального значения первого столбца. Я хочу, чтобы это могло ограничить...
вопрос задан: 2 May 2012 22:17
0
ответов

Есть ли способ сделать многострочный комментарий в сценариях куста

Я знаю, что мы можем сделать однострочный комментарий с помощью «--» в сценариях hiveQL(hive.sql), но есть ли такой способ? способ сделать многострочные комментарии? Мне нужно что-то вроде ниже /*Это предложение является комментарием */
вопрос задан: 19 April 2012 19:14
0
ответов

Программа подсчета слов в Hive

Я пытаюсь изучить Hive. Удивительно, но я не могу найти пример того, как написать простую работу по подсчету слов. Правильно ли следующее? Допустим, у меня есть входной файл input.tsv: привет, мир это...
вопрос задан: 6 April 2012 06:27
0
ответов

Что лучше всего использовать для объединения соединений Hive JDBC

Я использую драйвер Hive JDBC для выполнения sql-подобного запроса к моему хранилищу данных HDFS. Я пытался использовать c3p0 для обработки пула соединений. Я не уверен, что это правильный подход, так как запрос Hive ...
вопрос задан: 3 April 2012 16:24
0
ответов

Выходной формат JSON для результатов запроса Hive

Есть ли способ преобразовать результат запроса Hive в формат JSON?
вопрос задан: 3 April 2012 14:46
0
ответов

Подсчет в Hadoop Hive

Я хочу подсчитать значения, похожие на карту, где ключом будет значение в столбце таблицы Hive и соответствующее значение это счет. Например, для таблицы ниже: +-------+-------+ | Кол 1 | ...
вопрос задан: 3 April 2012 14:07
0
ответов

Производительность Hive по сравнению с SQL Server

1) Я начал использовать Hive последние 2 месяца. У меня такая же задача, как и в SQL. Я обнаружил, что Hive работает медленно и требует больше времени для выполнения запросов, в то время как SQL выполняет его за очень несколько минут/секунд. ...
вопрос задан: 3 April 2012 06:13
0
ответов

У Hive есть что-то эквивалентное DUAL?

Я хотел бы запустить такие операторы, как SELECT date_add('2008-12-31', 1) FROM DUAL Есть ли что-то подобное в Hive (работающем на Amazon EMR)?
вопрос задан: 20 March 2012 22:00
0
ответов

Экспорт таблицы Hive в ведро S3

Я создал таблицу Hive через интерактивную сессию Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ФОРМАТ СТРОК РАЗДЕЛЕННЫЙ ...
вопрос задан: 28 February 2012 20:48
0
ответов

Невозможно запустить UDF на сервере куста

Я использую куст в режиме экономичного сервера. У меня есть UDF в файле jar, который я пытаюсь использовать, запустив add jar создать временную функцию func_name как 'com.test.udf.UDF_CLASS' ...
вопрос задан: 23 February 2012 05:21
0
ответов

Hive join устанавливает количество редукторов

Мне нужно установить количество редукторов при выполнении операции объединения в Hive. Я не хочу устанавливать одинаковое количество редукторов для каждой работы по объединению, которая у меня есть. Как я могу назвать это аргументом? Заранее спасибо.
вопрос задан: 13 February 2012 18:44
0
ответов

Является ли что-то, записанное в HDFS или Hbase, сразу же видимым для всех других узлов в кластере Hadoop?

Пока выполняется задание Hadoop или в процессе, если я что-то напишу в HDFS или H база тогда будет это данные будут видны всем узлам кластера 1.) немедленно? 2.) Если не сразу, то после того, как ...
вопрос задан: 12 February 2012 12:00
0
ответов

Отображение неправильного числа после импорта таблицы в Hive

Я импортировал около 10 таблиц в Hive из MS SQL Server. Но когда я пытаюсь перепроверить записи в Hive в одной из таблиц, я обнаружил больше записей при запуске запроса (select count (*) ...
вопрос задан: 8 February 2012 16:05