Название модели ошибки не определено

То, чего вы пытаетесь достичь, уже возможно с помощью команды merge в parquet-tools . Однако не рекомендуется слить небольшие файлы, так как он фактически не объединяет группы строк, а только помещает их один за другим (точно так, как вы описываете это в своем вопросе). Результирующий файл, вероятно, будет иметь плохие характеристики производительности.

Если вы хотите его реализовать самостоятельно, вы можете увеличить размер кучи или изменить код так, чтобы он не читайте все файлы в памяти перед записью нового файла, а вместо этого читайте их один за другим (или даже лучше, rowgroup by rowgroup) и сразу же записываете их в новый файл. Таким образом вам останется только сохранить в памяти один файл или группу строк.

0
задан Shoaib Khan 19 January 2019 в 07:00
поделиться