Несколько файлов на входе в Amazon Elastic MapReduce

, я пытаюсь запустить задание на Elastic MapReduce (EMR) с помощью настраиваемого jar-файла. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свою работу с параметром s3n: //bucketname/compressed/*.xml.gz , я получаю сообщение об ошибке «Соответствует 0 файлов». Если я передаю только абсолютный путь к файлу (например, s3n: //bucketname/compressed/00001.xml.gz ), он работает нормально, но обрабатывается только один файл. Я попытался использовать имя каталога ( s3n: // bucketname / compressed / ), надеясь, что файлы внутри будут обработаны, но это просто передает каталог в задание.

В то же время время, у меня есть меньшая локальная установка hadoop. В этом случае, когда я передаю задание с использованием подстановочных знаков ( / путь / к / директории / on / hdfs / *. Xml.gz ), он работает нормально, и все 1000 файлов отображаются правильно.

Как получить список всех моих файлов в EMR?

6
задан Shashank Agarwal 20 July 2011 в 15:32
поделиться