0
ответов

Удаление дубликатов с помощью PigLatin

Я использую PigLatin для фильтрации некоторых записей. User1 8 NYC User1 9 NYC User1 7 LA User2 4 NYC User2 3 DC Сценарий должен удалить дубликаты для пользователей и сохранить одну из этих записей....
вопрос задан: 18 July 2012 03:59
0
ответов

Установка PIG на одном узле

Я установил Hadoop (1.0.2 )для одного узла в Windows 7 с Cygwin, и он работает. Однако я не могу заставить PIG (0.10.0 )увидеть Hadoop. 1 )«Ошибка :JAVA _ГЛАВНАЯ не установлена». Я добавил эту строку в...
вопрос задан: 13 July 2012 11:46
0
ответов

PIG :Получить все кортежи из сгруппированного пакета

Я использую PIG для создания групп из кортежей следующим образом :a1, b1 а1, б2 а1, б3... -> а1, [b1, b2, b3]... Это легко и работает. Но у меня проблема получить следующее :Из полученного...
вопрос задан: 3 July 2012 09:26
0
ответов

Разделение кортежа на несколько кортежей в Pig

Мне нравится генерировать несколько кортежей из одного кортежа. Я имею в виду, что :у меня есть файл со следующими данными. >> данные кота ID | ИмяСтолбца1 :Значение1 | ColumnName2 :Value2, поэтому я загружаю его с помощью...
вопрос задан: 2 July 2012 18:54
0
ответов

Сводная таблица с Apache Pig

Интересно, можно ли свернуть таблицу за один проход в Apache Pig. Ввод: идентификатор Column1 Column2 Column3 1 ряд11 ряд12 ряд13 2 Row21 Row22 Row23 Вывод: ID Имя Значение ...
вопрос задан: 26 June 2012 18:18
0
ответов

Как заставить STORE (перезаписать) HDFS в Pig?

При разработке сценариев Pig, использующих команду STORE, мне приходится удалять выходной каталог для каждого запуска, иначе сценарий останавливается и предлагает: 2012-06-19 19:22:49,680 [main] ОШИБКА org.apache.pig.tools ....
вопрос задан: 19 June 2012 22:28
0
ответов

Обработка Json с помощью сценариев Pig

В настоящее время я начал работать с файлами JSON и обрабатывать данные с помощью сценариев PIG. Я использую Pig версии 0.9.3. Я наткнулся на PiggyBank, который, как мне кажется, будет полезен для загрузки и обработки json...
вопрос задан: 14 June 2012 18:47
0
ответов

Отладка в PIG UDF

Я новичок в Hadoop/PIG. У меня есть основной вопрос. Есть ли у нас средство ведения журнала в PIG UDF? Я написал UDF, который мне нужно проверить Мне нужно зарегистрировать определенные операторы, чтобы проверить поток. Есть ли ...
вопрос задан: 12 June 2012 21:17
0
ответов

Способ чтения данных таблицы из Mysql в Pig.

Все знают, что Pig поддерживает DBStorage, но они поддерживают только результаты загрузки из Pig в mysql, например STORE data INTO DBStorage('com.mysql.jdbc.Driver ', 'dbc:mysql://host/db', '...
вопрос задан: 11 June 2012 04:29
0
ответов

Хранение результатов UNION в PIG в одном файле

У меня есть скрипт PIG, который выдает четыре результата Я хочу сохранить их все в одном файле. Я пытаюсь использовать UNION, однако, когда я использую UNION, я получаю четыре файла part-m-00000, part-m-00001, part-m-00002, ...
вопрос задан: 8 June 2012 23:02
0
ответов

Создание всех полей из псевдонима после JOIN в Pig

Я хотел бы выполнить эквивалент «сохранить все a в A, где a.field == b.field для некоторого b в B» в Apache Pig. Я реализую это так: AB_joined = JOIN A по полю, B по полю; A2 = ...
вопрос задан: 30 May 2012 23:23
0
ответов

Проецирование сгруппированных кортежей в Pig

У меня есть набор кортежей в форме (t,a,b), которые я хочу сгруппировать по b в Pig. После группировки я хочу отфильтровать b из кортежей в каждой группе и создать пакет отфильтрованных кортежей для каждой группы. ...
вопрос задан: 29 May 2012 23:39
0
ответов

Сгладить кортеж как мешок

Мой набор данных выглядит следующим образом: ( A, (1 ,2) ) ( B, (2,9)) Я хотел бы «сгладить» кортежи в Pig, в основном повторяя каждую запись для каждого значения, найденного во внутреннем кортеже, так, чтобы...
вопрос задан: 15 May 2012 22:00
0
ответов

как включить внешний jar-файл с помощью PIG

Когда я запускаю задание mapreduce с помощью команды hadoop, я использую -libjars для настройки моего jar-файла на кеш и путь к классам. Как сделать что-то подобное в PIG?
вопрос задан: 3 May 2012 03:42
0
ответов

как загрузить tar-архив в свинью

у меня есть файлы журнала, которые находятся в tar-архиве (access.logs.tar.gz )загружены в мой кластер hadoop. Мне было интересно, есть ли у них способ напрямую загрузить его в свинью, не растаривая?
вопрос задан: 17 April 2012 04:21
0
ответов

Вычисление медианы в уменьшении карты

Может ли кто-нибудь привести пример вычисления медианы/квантилей в уменьшении карты? Мое понимание медианы Datafu заключается в том, что преобразователи 'n' сортируют данные и отправляют данные в редуктор "1", который...
вопрос задан: 11 April 2012 15:53
0
ответов

STORE выводить в один CSV?

В настоящее время, когда я СОХРАНЯЮ в HDFS, создается много файлов деталей. Есть ли способ сохранить в один файл CSV?
вопрос задан: 28 March 2012 15:34
0
ответов

PIG, как подсчитать количество строк в псевдониме

Я сделал что-то подобное, чтобы подсчитать количество строк в псевдониме в PIG: logs = LOAD 'log' logs_w_one = журналы foreach генерируют 1 как один; logs_group = группа logs_w_one все; logs_count = foreach ...
вопрос задан: 27 March 2012 16:29
0
ответов

Не удалось вывести функцию COUNT.

Я пытаюсь написать свиной латинский скрипт, чтобы подсчитывать количество отфильтрованных наборов данных. Пока что вот сценарий: /* сканирует по заголовку */ сканирует = ЗАГРУЗИТЬ '/hive/scans/*' ИСПОЛЬЗУЯ PigStorage(',')...
вопрос задан: 22 March 2012 16:19
0
ответов

Как я могу включить текущее имя входного файла в мой скрипт Pig Latin?

Я обрабатываю данные из набора файлов, которые содержат штамп даты как часть имени файла. Данные в файле не содержат отметку даты. Я хотел бы обработать имя файла и добавить его ...
вопрос задан: 18 March 2012 03:04
0
ответов

Каковы плюсы и минусы выполнения задания в Hadoop с использованием разных языков?

До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...
вопрос задан: 5 March 2012 15:14
0
ответов

Как сохранить сгруппированные записи в несколько файлов с помощью Pig?

После загрузки и группировки записей, как я могу сохранить эти сгруппированные записи в несколько файлов, по одному на группу (= идентификатор пользователя)? записи = ЗАГРУЗИТЬ 'ввод' AS (идентификатор пользователя: int, ...); grouped_records = ГРУППА З
вопрос задан: 16 February 2012 16:12
0
ответов

выберите количество отдельных, используя латынь свиньи

Мне нужна помощь с этим скриптом свиньи. Я получаю только одну пластинку. Я выбираю 2 столбца и делаю подсчет (отдельный) в другом, а также использую предложение where like, чтобы найти конкретный ...
вопрос задан: 12 February 2012 15:01
0
ответов

Порядок свиньи по запросу

grunt> dump jn; (k1, k4,10) (k1, k5,15) (к2, к4,9) (k3, k4,16) grunt> jn = group jn by $ 1; grunt> dump jn; (k4, {(k1, k4,10), (k2, k4,9), (k3, k4,16)}) (k5, {(k1, k5,15)}) Теперь, отсюда я хочу ...
вопрос задан: 3 February 2012 07:18
0
ответов

Объявление переменной и схемы в PIG

как объявить переменную в PIG? Предположим, я хочу, чтобы целое число имело значения как 10, как я могу объявить его в скрипте? И как схема может быть повторно использована?
вопрос задан: 31 January 2012 06:41
0
ответов

форматы файлов, которые можно читать с помощью PIG

Какие форматы файлов можно читать с помощью PIG? Как их хранить в разных форматах? Скажем, у нас есть файл CSV, и я хочу сохранить его как файл MXL, как это можно сделать? Всякий раз, когда мы используем команду STORE ...
вопрос задан: 26 January 2012 11:03
0
ответов

Какой может быть процедура / код для удаления «строкового выражения» из файла с помощью Apache Pig?

A = load '/home/wrdtest.txt'; B = foreach A сгенерировать сглаживание (TOKENIZE ((chararray) $ 0)) как слово; C = фильтровать B по слову! = 'The'; D = группа C по словам; E = foreach D генерирует COUNT (C) как count, group ...
вопрос задан: 12 January 2012 05:36
0
ответов

Расположение вывода неагрегированных предупреждений Pig?

Pig: 0.8.1-cdh3u2 Hadoop: 0.20.2-cdh3u0 Отладка предупреждений FIELD_DISCARDED_TYPE_CONVERSION_FAILED, но я не могу нигде распечатать отдельные предупреждения. Отключение агрегирования с помощью -w или ...
вопрос задан: 14 December 2011 20:02
0
ответов

использование PIG для загрузки файла

Я новичок в PIG, и у меня возникла то, что кажется очень простой проблемой. У меня есть строка кода, которая гласит: A = load 'Sites / trial_clustering / shortdocs / *' AS (word1: chararray, word2: chararray, ...
вопрос задан: 12 November 2011 01:58
0
ответов

свинья - как ссылаться на столбцы в FOREACH после JOIN?

A = загрузить 'a.txt' как (id, a1); B = загрузить 'b.txt как (id, b1); C = присоединиться к A по id, B по id; D = foreach C сгенерировать id, a1, b1; дамп D; Ошибка 4-й строки: Недопустимая проекция поля. Спроецированное поле [id] действительно
вопрос задан: 9 November 2011 09:24