Как читать сжатые дампы bz2 (bzip2) Википедии в поток xml-программы чтения для карты hadoop reduce

Я работаю над использованием Hadoop Map Reduce для исследования дампов данных википедии (сжатых в формате bz2). ). Поскольку эти дампы очень большие (5 T), я не могу распаковать XML-данные в HDFS и просто использовать StreamXmlRecordReader, который предоставляет hadoop. Hadoop поддерживает распаковку файлов bz2, но произвольно разбивает страницы и отправляет их в картограф. Поскольку это xml, нам нужно, чтобы разбиения были тегами. Есть ли способ использовать встроенную декомпрессию bz2 и потоковую программу чтения xml записей, предоставляемую hadoop вместе?

6
задан DrDee 6 August 2011 в 11:27
поделиться