, я пытаюсь запустить задание на Elastic MapReduce (EMR) с помощью настраиваемого jar-файла. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свою работу с параметром s3n: //bucketname/compressed/*.xml.gz
, я получаю сообщение об ошибке «Соответствует 0 файлов». Если я передаю только абсолютный путь к файлу (например, s3n: //bucketname/compressed/00001.xml.gz
), он работает нормально, но обрабатывается только один файл. Я попытался использовать имя каталога ( s3n: // bucketname / compressed /
), надеясь, что файлы внутри будут обработаны, но это просто передает каталог в задание.
В то же время время, у меня есть меньшая локальная установка hadoop. В этом случае, когда я передаю задание с использованием подстановочных знаков ( / путь / к / директории / on / hdfs / *. Xml.gz
), он работает нормально, и все 1000 файлов отображаются правильно.
Как получить список всех моих файлов в EMR?