Я использую PigLatin для фильтрации некоторых записей. User1 8 NYC User1 9 NYC User1 7 LA User2 4 NYC User2 3 DC Сценарий должен удалить дубликаты для пользователей и сохранить одну из этих записей....
Я установил Hadoop (1.0.2 )для одного узла в Windows 7 с Cygwin, и он работает. Однако я не могу заставить PIG (0.10.0 )увидеть Hadoop. 1 )«Ошибка :JAVA _ГЛАВНАЯ не установлена». Я добавил эту строку в...
Я использую PIG для создания групп из кортежей следующим образом :a1, b1 а1, б2 а1, б3... -> а1, [b1, b2, b3]... Это легко и работает. Но у меня проблема получить следующее :Из полученного...
Мне нравится генерировать несколько кортежей из одного кортежа. Я имею в виду, что :у меня есть файл со следующими данными. >> данные кота ID | ИмяСтолбца1 :Значение1 | ColumnName2 :Value2, поэтому я загружаю его с помощью...
Интересно, можно ли свернуть таблицу за один проход в Apache Pig. Ввод: идентификатор Column1 Column2 Column3
1 ряд11 ряд12 ряд13
2 Row21 Row22 Row23 Вывод: ID Имя Значение
...
При разработке сценариев Pig, использующих команду STORE, мне приходится удалять выходной каталог для каждого запуска, иначе сценарий останавливается и предлагает: 2012-06-19 19:22:49,680 [main] ОШИБКА org.apache.pig.tools ....
В настоящее время я начал работать с файлами JSON и обрабатывать данные с помощью сценариев PIG. Я использую Pig версии 0.9.3. Я наткнулся на PiggyBank, который, как мне кажется, будет полезен для загрузки и обработки json...
Я новичок в Hadoop/PIG. У меня есть основной вопрос. Есть ли у нас средство ведения журнала в PIG UDF? Я написал UDF, который мне нужно проверить
Мне нужно зарегистрировать определенные операторы, чтобы проверить поток. Есть ли ...
Все знают, что Pig поддерживает DBStorage, но они поддерживают только результаты загрузки из Pig в mysql, например STORE data INTO DBStorage('com.mysql.jdbc.Driver ', 'dbc:mysql://host/db', '...
У меня есть скрипт PIG, который выдает четыре результата
Я хочу сохранить их все в одном файле. Я пытаюсь использовать UNION, однако, когда я использую UNION, я получаю четыре файла part-m-00000, part-m-00001, part-m-00002, ...
Я хотел бы выполнить эквивалент «сохранить все a в A, где a.field == b.field для некоторого b в B» в Apache Pig. Я реализую это так: AB_joined = JOIN A по полю, B по полю;
A2 = ...
У меня есть набор кортежей в форме (t,a,b), которые я хочу сгруппировать по b в Pig. После группировки я хочу отфильтровать b из кортежей в каждой группе и создать пакет отфильтрованных кортежей для каждой группы. ...
Мой набор данных выглядит следующим образом: ( A, (1 ,2) )
( B, (2,9)) Я хотел бы «сгладить» кортежи в Pig, в основном повторяя каждую запись для каждого значения, найденного во внутреннем кортеже, так, чтобы...
Когда я запускаю задание mapreduce с помощью команды hadoop, я использую -libjars для настройки моего jar-файла на кеш и путь к классам. Как сделать что-то подобное в PIG?
у меня есть файлы журнала, которые находятся в tar-архиве (access.logs.tar.gz )загружены в мой кластер hadoop. Мне было интересно, есть ли у них способ напрямую загрузить его в свинью, не растаривая?
Может ли кто-нибудь привести пример вычисления медианы/квантилей в уменьшении карты? Мое понимание медианы Datafu заключается в том, что преобразователи 'n' сортируют данные и отправляют данные в редуктор "1", который...
Я сделал что-то подобное, чтобы подсчитать количество строк в псевдониме в PIG: logs = LOAD 'log'
logs_w_one = журналы foreach генерируют 1 как один;
logs_group = группа logs_w_one все;
logs_count = foreach ...
Я пытаюсь написать свиной латинский скрипт, чтобы подсчитывать количество отфильтрованных наборов данных. Пока что вот сценарий: /* сканирует по заголовку */ сканирует = ЗАГРУЗИТЬ '/hive/scans/*' ИСПОЛЬЗУЯ PigStorage(',')...
Я обрабатываю данные из набора файлов, которые содержат штамп даты как часть имени файла. Данные в файле не содержат отметку даты. Я хотел бы обработать имя файла и добавить его ...
До сих пор я использовал Pig или Java для Map Reduce исключительно для запуска заданий в кластере Hadoop. Недавно я пробовал использовать Python Map Reduce через потоковую передачу Hadoop, и это...
После загрузки и группировки записей, как я могу сохранить эти сгруппированные записи в несколько файлов, по одному на группу (= идентификатор пользователя)? записи = ЗАГРУЗИТЬ 'ввод' AS (идентификатор пользователя: int, ...);
grouped_records = ГРУППА З
Мне нужна помощь с этим скриптом свиньи. Я получаю только одну пластинку. Я выбираю 2 столбца и делаю подсчет (отдельный) в другом, а также использую предложение where like, чтобы найти конкретный ...
как объявить переменную в PIG? Предположим, я хочу, чтобы целое число имело значения как 10, как я могу объявить его в скрипте? И как схема может быть повторно использована?
Какие форматы файлов можно читать с помощью PIG? Как их хранить в разных форматах? Скажем, у нас есть файл CSV, и я хочу сохранить его как файл MXL, как это можно сделать? Всякий раз, когда мы используем команду STORE ...
A = load '/home/wrdtest.txt'; B = foreach A сгенерировать сглаживание (TOKENIZE ((chararray) $ 0)) как слово; C = фильтровать B по слову! = 'The'; D = группа C по словам; E = foreach D генерирует COUNT (C) как count, group ...
Pig: 0.8.1-cdh3u2
Hadoop: 0.20.2-cdh3u0 Отладка предупреждений FIELD_DISCARDED_TYPE_CONVERSION_FAILED, но я не могу нигде распечатать отдельные предупреждения. Отключение агрегирования с помощью -w или ...
Я новичок в PIG, и у меня возникла то, что кажется очень простой проблемой. У меня есть строка кода, которая гласит: A = load 'Sites / trial_clustering / shortdocs / *' AS (word1: chararray, word2: chararray, ...
A = загрузить 'a.txt' как (id, a1);
B = загрузить 'b.txt как (id, b1);
C = присоединиться к A по id, B по id;
D = foreach C сгенерировать id, a1, b1;
дамп D; Ошибка 4-й строки:
Недопустимая проекция поля. Спроецированное поле [id] действительно