Сжатые данные в S3, которые необходимо использовать для машинного обучения в EMR или Redshift

Файлы и папки имеют реальный размер и размер на диске

  • - видимый размер - реальный размер файла или папки
  • на диске - это количество байты файл или папка берет диск. То же самое при использовании только du

Если вы обнаружите, что видимый размер почти всегда на несколько величин выше, чем на диске, то это означает, что у вас есть много («разреженных») файлов файлов с внутренней фрагментацией или непрямыми блоками.

0
задан 644446 23 March 2019 в 17:37
поделиться

2 ответа

Я бы предложил:

  • Создать внешнюю таблицу в Amazon Athena (сканер AWS Glue может сделать это за вас), которая указывает, где хранятся ваши данные [114 ]
  • Используйте CREATE TABLE AS, чтобы выбрать нужные столбцы и сохранить их в новой таблице (с данными, автоматически сохраненными в Amazon S3)

Amazon Athena может обрабатывать формат gzip, но вы нужно проверить, включает ли это формат zip.

См .:

0
ответ дан John Rotenstein 23 March 2019 в 17:37
поделиться

Если цель состоит в том, чтобы материализовать подмножество файловых столбцов в таблице в Redshift, то у вас есть вариант Redshift Spectrum, который позволит вам определить «внешнюю таблицу» поверх файлов CSV в S3.

Затем можно выбрать соответствующие столбцы из внешних таблиц и вставить их в фактические таблицы Redshift.

У вас будет первоначальное снижение стоимости, когда Spectrum будет сканировать CSV-файлы, чтобы запросить их, и будет зависеть от размера файлов, но, вероятно, это будет значительно меньше, чем раскрутка кластера EMR для обработки данных.

Начало работы с Amazon Redshift Spectrum

0
ответ дан Nathan Griffiths 23 March 2019 в 17:37
поделиться
Другие вопросы по тегам:

Похожие вопросы: