Таким образом, я записал программу Python для справлений с небольшой задачей обработки данных. Вот очень краткая спецификация на искусственном языке вычисления, которое я хочу: проанализируйте "%s %lf %s" aa bb cc | group_by aa |...
Мое образование - 4 недели в мире Hadoop. Плескавшийся немного в Hive, Pig и Hadoop с помощью Hadoop VM Cloudera. Прочитали газету Google на MapReduce и GFS (ссылка PDF). Я понимаю это - Свинья...
Свинья является средой программирования потока данных для обработки очень больших файлов. Язык свиньи называют латынью Свиньи. Кто-либо знает о хорошем справочнике для PigLatin? Я ищу что-то это...
Используя апачскую свинью и текст hahahah. мой брат просто не сделал ничего плохого. Он обманул по поводу теста?ни за что! Я пытаюсь соответствовать "своему брату, просто не сделал ничего плохого". Идеально, я хотел бы...
Кто-то может объяснить, как MapReduce работает с Cassandra.6? Я прочитал пример для подсчета количества слов, но я не вполне следую за тем, что происходит на конце Cassandra по сравнению с "клиентским" концом. https://svn....
Предположите, что у меня есть следующий вход у Свиньи: некоторые И я хотели бы преобразовать это в: s так som некоторые я еще не нашел способ выполнить итерации по chararray на латыни свиньи. Я нашел МАРКИРОВАНИЕ...
У меня есть следующие Сценарий - используется версия 0,70 Пример структуры каталогов HDFS:
/ пользователь / обучение / тестирование / 20100811 / <файлы данных>
/user/training/...
Я помещаю несколько маленьких файлов в мой входной каталог, который хочу объединить в один файл, не используя локальную файловую систему и не записывая mapreds. Есть ли способ, которым я мог бы сделать это, используя hadoof fs ...
Я имею дело с набором данных movies.dat, предоставленным movielensdata. Первые 5 строк данных: 1: История игрушек (1995): Приключения | Анимация | Дети | Комедии | Фэнтези 2: Джуманджи (1995): Приключения | Дети | Фантазия 3: ...
У меня есть скрипт свиньи, который читает данные из каталога на HDFS. Данные хранятся как файлы avro. Структура файла выглядит так: DIR-- --Subdir1 --Subdir2 --Subdir3 --Subdir4 В свинье ...
Поэтому я пытаюсь сделать что-то вроде:% DECLARE Variable `cat src / documents / item.json`; Поле фильтра BY = переменная; Но я получаю сообщение об ошибке: ERROR org.apache.pig.Main - java.lang ....
Мне записали Определяемую пользователем функцию (UDF) в Java для парсинга строк в файле журнала и информации о возврате назад свинье, таким образом, это может сделать всю обработку. Это выглядит примерно так: общедоступный краткий обзор...
Свинья Apache может загрузить данные из файлов последовательности Hadoop с помощью PiggyBank SequenceFileLoader: РЕГИСТР/home/hadoop/pig/contrib/piggybank/java/piggybank.jar; ОПРЕДЕЛИТЕ SequenceFileLoader org.apache.pig....
Я бегу сценарий свиньи, который использует класс Java. и во время выполнения сценария pig я получаю сообщение об ошибке: 1. несовместимые типы: org.apache.hadoop.hive.kafka.KafkaWritable не может быть преобразовано в org ....
Команда Apache Pig Utility дает два одинаковых типа команд run и exec для запуска pig-сценария в grunt shell, я смотрю, разница только в том, что run дает гибкость разработчику при взаимодействии
Я пытаюсь загрузить один CSV-файл в таблицу HBase. Я могу успешно сбросить данные из CSV, но при импорте в таблицу я получаю сообщение об ошибке. Но, при загрузке других данных, я могу загрузить любой ...
I have following tuple H1 and I want to strsplit its $0 into tuple.However I always get an error message: DUMP H1:
(item32;item31;,1) m = FOREACH H1 GENERATE STRSPLIT($0, ";", 50); ERROR 1000: ...
У меня есть работа свиньи, где мне нужно отфильтровать данные, находя слово в нем, вот фрагмент a = load '/ home / user / filename' Используя поросяту (',');
B = Foreach A Generate $ 27, $ 38;
C = Фильтр B по ...
Я пытаюсь сохранить HDFS с помощью метода AvroStorage (). Код выглядит так: хранить «данные» в «путь» с помощью AvroStorage («схема», $ SCHEMA) SCHEMA - это переменная, которую я получаю от выполнения cat '/ path / to / ...
Поддерживает ли PIG предложение IN? filter = ФИЛЬТР bba ПО причине не в ('a', 'b', 'c', 'd'); или я должен разделить его на несколько операционных? Спасибо!
Я играю с Hive уже несколько дней, но у меня все еще есть проблемы с разделением. Я записываю журналы Apache (формат Combine) в Hadoop в течение нескольких месяцев. Они хранятся в текстовом формате строки,...
Как я отмечал ранее, Pig плохо справляется с пустыми (0-байтовыми) файлами. К сожалению, существует множество способов создания этих файлов (даже в служебных программах Hadoop). Я думал, что я ...
(Даже более простой, чем разница между Pig и Hive? Почему оба?) У меня есть конвейер обработки данных, написанный в нескольких задачах Java по сокращению карты через Hadoop (мой собственный код, полученный из Hadoop '...
Я хотел бы знать, как выполнять запросы Pig, хранящиеся в формате Hive. Я настроил Hive для хранения сжатых данных (с помощью этого руководства http://wiki.apache.org/hadoop/Hive/CompressedStorage). Перед ...
Я пытаюсь выполнить рабочий процесс свиньи. Но рабочий процесс зависает в рабочем состоянии, я проверил файл журнала, я нашел этот файл журнала от менеджера узлов: 2015-02-25 17: 50: 06,322 [JobControl] INFO ...
Я пытаюсь использовать PigUnit с Hadoop 2.4.1. У меня есть очень простой сценарий Pig, который я хочу выполнить внутри PigTest, но когда я запускаю этот тест, я получаю следующее исключение: java.lang ....
Я собираюсь начать экспериментировать с PIG-latin и надеялся получить подсветку текста и тому подобное в Eclipse . Выполнив быстрый поиск в Google, я нашел для него несколько плагинов Eclipse. Есть ...
В чем точная разница между свиньей и ульем? Я обнаружил, что оба имеют одинаковое функциональное значение, потому что они используются для выполнения одной и той же работы. Единственное, это реализация, которая отличается для...
У меня проблема при добавлении номеров строк с помощью Apache Pig.
Проблема в том, что у меня есть столбец STR_ID, и я хочу добавить столбец ROW_NUM для данных в STR_ID, который является номером строки STR_ID. ...
В чем реальная разница между запуском скриптов PIG локально и на mapreduce? Я понимаю, что режим mapreduce — это когда вы запускаете его на кластере с установленным hdfs. Означает ли это, что локальный режим действительно...