Генерация Отдельных Выходных файлов в Потоковой передаче Hadoop

Я просто заметил, что текущее решение позволяет теги, которые запускаются с любой из приемлемых тегов. Таким образом, если "b" является приемлемым тегом, "мигание" также. Не огромное соглашение, но что-то, чтобы рассмотреть, строги ли Вы о том, как Вы фильтруете HTML. Вы, конечно, не хотели бы позволять "s" как приемлемый тег, поскольку он позволит "сценарий".

8
задан Ryan R. Rosario 26 October 2009 в 19:17
поделиться

3 ответа

Вы можете записывать текст в текстовый файл в локальной файловой системе с помощью файловых функций Python или, если вы хотите использовать HDFS, использовать Thrift API .

1
ответ дан 5 December 2019 в 19:01
поделиться

Можно ли заменить outputFormatClass при использовании потоковой передачи? В собственной реализации Java вы должны расширить класс MultipleTextOutputFormat и изменить метод, который называет выходной файл. Затем определите вашу реализацию как новый выходной формат с помощью метода setOutputFormat

JobConf, который вы должны проверить, возможно ли это и в потоковой передаче. Я не знаю: - /

1
ответ дан 5 December 2019 в 19:01
поделиться

Классы input и outputformat можно заменить с помощью параметров командной строки -inputformat и -outputformat.

Один из примеров того, как это сделать, можно найти в проекте dumbo , который представляет собой среду Python для написания потоковых заданий. Он имеет функцию записи в несколько файлов, а внутри он заменяет выходной формат классом из своего родственного проекта, перья - fm.last.feathers.output.MultipleTextFiles.

Затем reducer должен выдать кортеж в качестве ключа, причем первый компонент кортежа является путем к каталогу, в котором должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.

Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.

Он имеет функцию записи в несколько файлов, а внутри он заменяет выходной формат классом из своего родственного проекта, перья - fm.last.feathers.output.MultipleTextFiles.

Затем reducer должен выдать кортеж в качестве ключа, причем первый компонент кортежа является путем к каталогу, в котором должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.

Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.

Он имеет функцию записи в несколько файлов, а внутри он заменяет выходной формат классом из своего родственного проекта, перья - fm.last.feathers.output.MultipleTextFiles.

Затем reducer должен выдать кортеж в качестве ключа, причем первый компонент кортежа является путем к каталогу, в котором должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.

Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.

Редуктор затем должен выдать кортеж в качестве ключа, при этом первый компонент кортежа является путем к каталогу, в который должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.

Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.

Редуктор затем должен выдать кортеж в качестве ключа, при этом первый компонент кортежа является путем к каталогу, в который должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.

Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.

7
ответ дан 5 December 2019 в 19:01
поделиться
Другие вопросы по тегам:

Похожие вопросы: