Свинья Apache может загрузить данные из файлов последовательности Hadoop с помощью PiggyBank SequenceFileLoader
:
REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;
DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();
log = LOAD '/data/logs' USING SequenceFileLoader AS (...)
Существует ли также библиотека там, которая позволила бы писать в файлы последовательности Hadoop от Свиньи?
Это просто вопрос реализации StoreFunc для этого.
Это возможно уже сейчас, хотя после выхода Pig 0.7 это станет гораздо проще, поскольку в нем полностью переработаны интерфейсы Load/Store.
"Пакет расширения Hadoop" Twitter скоро будет открыт на github, включает код для генерации функций Load и Store на основе буферов протокола Google (основываясь на форматах ввода/вывода для того же самого - у вас уже есть такие для файлов последовательности, очевидно). Посмотрите его, если вам нужны примеры того, как делать некоторые из менее тривиальных вещей. Хотя все должно быть довольно просто.