Файлы и папки имеют реальный размер и размер на диске
Если вы обнаружите, что видимый размер почти всегда на несколько величин выше, чем на диске, то это означает, что у вас есть много («разреженных») файлов файлов с внутренней фрагментацией или непрямыми блоками.
Я бы предложил:
CREATE TABLE AS
, чтобы выбрать нужные столбцы и сохранить их в новой таблице (с данными, автоматически сохраненными в Amazon S3) Amazon Athena может обрабатывать формат gzip, но вы нужно проверить, включает ли это формат zip.
См .:
Если цель состоит в том, чтобы материализовать подмножество файловых столбцов в таблице в Redshift, то у вас есть вариант Redshift Spectrum, который позволит вам определить «внешнюю таблицу» поверх файлов CSV в S3.
Затем можно выбрать соответствующие столбцы из внешних таблиц и вставить их в фактические таблицы Redshift.
У вас будет первоначальное снижение стоимости, когда Spectrum будет сканировать CSV-файлы, чтобы запросить их, и будет зависеть от размера файлов, но, вероятно, это будет значительно меньше, чем раскрутка кластера EMR для обработки данных.