Почувствовав из первых рук разницу между s3a и s3n - 7.9GB данных, переданных на s3a, было около ~ 7 минут, а 7,9 ГБ данных на s3n заняло 73 минуты [us-east-1 to us-west-1, к сожалению, в оба случая; Redshift и Lambda, являющиеся нами-восточным-1 в это время], это очень важная часть стека, чтобы получить правильное решение, и это стоит разочарования.
Вот ключевые части по состоянию на декабрь 2015 года:
--hadoop-major-version 2
(который использует CDH 4.2 на момент написания этой статьи). org.apache.hadoop.fs.s3a.S3AFileSystem
. spark.properties
вы, вероятно, хотите, чтобы некоторые настройки выглядели следующим образом: spark.hadoop.fs.s3a.impl=org.apache.hadoop.fs.s3a.S3AFileSystem
spark.hadoop.fs.s3a.access.key=ACCESSKEY
spark.hadoop.fs.s3a.secret.key=SECRETKEY
Я подробно описал этот список более подробно на сообщении я написал , поскольку я проработал свой путь через этот процесс. Кроме того, я рассмотрел все случаи исключения, которые я ударил по пути и что я считаю причиной каждого и как исправить их.
Вы используете его, чтобы проверить, не больше ли документ, который был ранее в наборе результатов, в наборе результатов. Если вас не волнует этот случай, вам не нужно его использовать.