Проблемы с distcp Hadoop из HDFS в Amazon S3

Я пытаюсь переместить данные из HDFS в S3, используя distcp. Задание distcpкажется успешным, но на S3 файлы создаются неправильно. Есть две проблемы:

  1. Имена файлов и пути не реплицируются. Все файлы заканчиваются как block_<некоторое число>в корне корзины.
  2. Он создает кучу дополнительных файлов на S3 с некоторыми метаданными и журналами.

Я не смог найти никакой документации/примеров для этого. Что мне не хватает? Как я могу отлаживать?

Вот еще некоторые подробности:

$ hadoop version 
Hadoop 0.20.2-cdh3u0
Subversion  -r 
Compiled by diego on Sun May  1 15:42:11 PDT 2011
From source with checksum 
hadoop fs –ls hdfs://hadoopmaster/data/paramesh/
…<bunch of files>…

hadoop distcp  hdfs://hadoopmaster/data/paramesh/ s3://<id>:<key>@paramesh-test/
$ ./s3cmd-1.1.0-beta3/s3cmd ls s3://paramesh-test

                       DIR   s3://paramesh-test//
                       DIR   s3://paramesh-test/test/
2012-05-10 02:20         0   s3://paramesh-test/block_-1067032400066050484
2012-05-10 02:20      8953   s3://paramesh-test/block_-183772151151054731
2012-05-10 02:20     11209   s3://paramesh-test/block_-2049242382445148749
2012-05-10 01:40      1916   s3://paramesh-test/block_-5404926129840434651
2012-05-10 01:40      8953   s3://paramesh-test/block_-6515202635859543492
2012-05-10 02:20     48051   s3://paramesh-test/block_1132982570595970987
2012-05-10 01:40     48052   s3://paramesh-test/block_3632190765594848890
2012-05-10 02:20      1160   s3://paramesh-test/block_363439138801598558
2012-05-10 01:40      1160   s3://paramesh-test/block_3786390805575657892
2012-05-10 01:40     11876   s3://paramesh-test/block_4393980661686993969
9
задан Kirk Broadhurst 9 September 2015 в 18:14
поделиться