Я просто заметил, что текущее решение позволяет теги, которые запускаются с любой из приемлемых тегов. Таким образом, если "b" является приемлемым тегом, "мигание" также. Не огромное соглашение, но что-то, чтобы рассмотреть, строги ли Вы о том, как Вы фильтруете HTML. Вы, конечно, не хотели бы позволять "s" как приемлемый тег, поскольку он позволит "сценарий".
Вы можете записывать текст в текстовый файл в локальной файловой системе с помощью файловых функций Python или, если вы хотите использовать HDFS, использовать Thrift API .
Можно ли заменить outputFormatClass при использовании потоковой передачи? В собственной реализации Java вы должны расширить класс MultipleTextOutputFormat и изменить метод, который называет выходной файл. Затем определите вашу реализацию как новый выходной формат с помощью метода setOutputFormat
JobConf, который вы должны проверить, возможно ли это и в потоковой передаче. Я не знаю: - /
Классы input и outputformat можно заменить с помощью параметров командной строки -inputformat и -outputformat.
Один из примеров того, как это сделать, можно найти в проекте dumbo , который представляет собой среду Python для написания потоковых заданий. Он имеет функцию записи в несколько файлов, а внутри он заменяет выходной формат классом из своего родственного проекта, перья - fm.last.feathers.output.MultipleTextFiles.
Затем reducer должен выдать кортеж в качестве ключа, причем первый компонент кортежа является путем к каталогу, в котором должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.
Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.
Он имеет функцию записи в несколько файлов, а внутри он заменяет выходной формат классом из своего родственного проекта, перья - fm.last.feathers.output.MultipleTextFiles.Затем reducer должен выдать кортеж в качестве ключа, причем первый компонент кортежа является путем к каталогу, в котором должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.
Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.
Он имеет функцию записи в несколько файлов, а внутри он заменяет выходной формат классом из своего родственного проекта, перья - fm.last.feathers.output.MultipleTextFiles.Затем reducer должен выдать кортеж в качестве ключа, причем первый компонент кортежа является путем к каталогу, в котором должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.
Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.
Редуктор затем должен выдать кортеж в качестве ключа, при этом первый компонент кортежа является путем к каталогу, в который должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.
Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.
Редуктор затем должен выдать кортеж в качестве ключа, при этом первый компонент кортежа является путем к каталогу, в который должны быть записаны файлы с парами ключ / значение. По-прежнему может быть несколько файлов, это зависит от количества редукторов и приложения.
Я рекомендую изучить dumbo, у него много функций, которые упрощают написание программ Map / Reduce на Hadoop на python.