У нас есть кластер из 8 узлов, использующий CDH3u2, настроенный с помощью Cloudera Manager. У нас есть выделенный главный узел, на котором запущен единственный экземпляр zookeeper. Когда я настраиваю hive для запуска локального hadoop, выполняется ...
Я хочу извлечь (ip, requestUrl, timeStamp) из журналов доступа для загрузки в базу данных куста. Одна строка из журнала доступа выглядит следующим образом. 66.249.68.6 - - [14 / Янв / 2012: 06: 25: 03 -0800] «GET /example.com ...
Я новичок в улье и столкнулся с проблемой, у меня есть такая таблица в улье: create table td (id int, time string, ip string, v1 bigint, v2 int, v3 int,
v4 int, v5 bigint, v6 int) ...
У меня проблемы с regexp_extract: я запрашиваю файл с разделителями табуляции, столбец, который я проверка имеет строки, которые выглядят следующим образом: abc.def.ghi Теперь, если я это сделаю: выберите отдельный ...
Я новичок в Hadoop / Hive и только начал читать документацию. Есть много блогов об установке Hadoop в кластерном режиме. Также я знаю, что Hive работает поверх Hadoop. Мой вопрос: ...
Сценарий: Когда я ввожу запрос в Hive CLI, я получаю следующие ошибки: Query: **$ bin/hive -e "insert overwrite table pokes select a.* from invites a where a.ds='2008-08-15'; "** Ошибка ...
Есть ли программный способ проверки операторов HiveQL на наличие таких ошибок, как базовые синтаксические ошибки? Я хотел бы проверить операторы перед отправкой их в Elastic Map Reduce, чтобы сохранить отладку ...
Новичок в Hadoop / Hive. Я пытаюсь использовать данные, хранящиеся в пользовательском текстовом формате с Hive. Насколько я понимаю, для этого вы можете написать собственный FileFormat или собственный класс SerDe. Есть ...
Как я могу использовать предложение In в Hive Я хочу написать что-то подобное в Hive выберите x из y, где yz в порядке (выберите отдельный z из y) by x;
Но я не могу это сделать ..
Я пробовал In ...
В качестве простого примера, выберите * из таблички; НЕ БЫВАЙТЕ лягнуть в карту уменьшать, а выберите счет(*) из таблички; DOES. Какой общий принцип используется для принятия решения о том, когда использовать сокращение карты (по ульям)?....
2 основных вопроса, которые меня беспокоят: как я могу быть уверен, что каждый из 32 файлов, которые куст использует для хранения моих таблиц, находится на его уникальная машина?
Если это произойдет, как я могу быть уверен, что если улей создает 32 ...
В СУБД, такой как MySQL, есть база данных, есть ли база данных также в Улье? Как я читал в руководстве, в улье есть только таблица, я немного запутался в этом .. и в чем разница между концепцией СУБД и Улья? ...
Я получаю следующую ошибку в Hive при выполнении любой команды. улей> показать таблицы;
FAILED: ошибка в метаданных: javax.jdo.JDOFatalInternalException: обнаружено непредвиденное исключение.
NestedThrowables:
java ....
У меня есть решение, которое можно распараллелить, но у меня (пока) нет опыта работы с hadoop / nosql, и я не уверен, какое решение лучше всего подходит для моих нужд. Теоретически, если бы у меня было неограниченное количество процессоров, мои результа
Есть ли способ сохранить дубликаты в собранном наборе в Hive или смоделировать совокупную коллекцию, которую предоставляет Hive, с помощью другого метод? Я хочу объединить все элементы в ...
Как я могу выполнять подвыборки в Hive? Я думаю, что могу совершить действительно очевидную ошибку, которая не так очевидна для меня ... Ошибка, которую я получаю: FAILED: Parse Error: строка 4: 8 не может распознать ввод '...
Итак, у меня есть внешние таблицы данных с разделителями табуляции. Простая таблица выглядит так: создайте внешнюю таблицу, если категории не существует
(строка идентификатора, строка тега, легальная строка, строка изображения, родительская строка, ..
Я заметил, что ни mrjob Кроме того, boto не поддерживает интерфейс Python для отправки и выполнения заданий Hive в Amazon Elastic MapReduce (EMR). Существуют ли какие-либо другие клиентские библиотеки Python, которые поддерживают выполнение ...
Does anyone know how to achieve that? I am assuming that RJDBC would help; but from my (likely naive) understanding, a bit of tweaking is necessary to write or adapt a Hive driver for this. Relevant ...
У меня есть данные в файле data/2011/01/13/0100/file в HDFS, каждый из этих файлов содержит данные, разделенные табуляцией, скажем, имя, ip, url. Я хочу создать таблицу в Hive и импортировать данные из hdfs, таблица должна ...
Я надеюсь запустить импорт в Hive на cron, и надеялся, что просто использовать «загрузить данные локально inpath '/ tmp / data / x' в таблицу X» в таблицу будет достаточно. Будут ли последующие команды перезаписаны ...
Чтобы эффективно использовать задания сокращения карты в Hadoop, мне нужны данные, которые должны храниться в формате файла последовательности hadoop. Однако в настоящее время данные представлены только в плоском формате .txt. Кто-нибудь может предложить
У меня есть синтаксический анализатор, возвращающий некоторое строковое значение, которое я хотел бы использовать в качестве параметра для инициализации экземпляра моего класса. У меня есть метод, запрашивающий два NSString и значение с плавающей запятой
У меня есть большая таблица mysql, которую я хотел бы перенести в таблицу Hadoop / Hive. Существуют ли стандартные команды или методы для переноса простой (но большой) таблицы из Mysql в Hive? В таблице хранится ...
Таким образом, у меня есть 5 строк, как этот идентификатор пользователя, col -------------- 1, a 1, b 2, c 2, d 3, e Как бы я сделать запрос, чтобы он выглядел так ID пользователя, объединенный 1, ab 2, cd 3, e
I ' Я собираюсь заменить несколько сценариев Python ETL, которые выполняют еженедельную / почасовую сводку данных и сбор статистики для огромного количества данных. Чего я хотел бы добиться, так это Robustness - ...