Сжатые данные в S3, которые необходимо использовать для машинного обучения в EMR или Redshift

Question

Сжатые данные в S3, которые необходимо использовать для машинного обучения в EMR или Redshift

Файлы и папки имеют реальный размер и размер на диске

- видимый размер - реальный размер файла или папки
на диске - это количество байты файл или папка берет диск. То же самое при использовании только du

Если вы обнаружите, что видимый размер почти всегда на несколько величин выше, чем на диске, то это означает, что у вас есть много («разреженных») файлов файлов с внутренней фрагментацией или непрямыми блоками.

0

amazon-s3 amazon-redshift amazon-emr

задан 644446 23 March 2019 в 17:37

2 ответа

Другие вопросы по тегам:

amazon-s3 amazon-redshift amazon-emr

Похожие вопросы:

score 0 · Answer 1

Я бы предложил:

Создать внешнюю таблицу в Amazon Athena (сканер AWS Glue может сделать это за вас), которая указывает, где хранятся ваши данные [114 ]
Используйте CREATE TABLE AS, чтобы выбрать нужные столбцы и сохранить их в новой таблице (с данными, автоматически сохраненными в Amazon S3)

Amazon Athena может обрабатывать формат gzip, но вы нужно проверить, включает ли это формат zip.

См .:

score 0 · Answer 2

Если цель состоит в том, чтобы материализовать подмножество файловых столбцов в таблице в Redshift, то у вас есть вариант Redshift Spectrum, который позволит вам определить «внешнюю таблицу» поверх файлов CSV в S3.

Затем можно выбрать соответствующие столбцы из внешних таблиц и вставить их в фактические таблицы Redshift.

У вас будет первоначальное снижение стоимости, когда Spectrum будет сканировать CSV-файлы, чтобы запросить их, и будет зависеть от размера файлов, но, вероятно, это будет значительно меньше, чем раскрутка кластера EMR для обработки данных.

Начало работы с Amazon Redshift Spectrum