Изменить размер разделения файла в Hadoop

У меня есть куча мелких файлов в каталоге HDFS. Хотя объем файлов относительно невелик, количество времени обработки каждого файла огромно. То есть для обработки файла 64 МБ, который является размером разделения по умолчанию для TextInputFormat, потребуется даже несколько часов.

Что мне нужно сделать, так это уменьшить размер разделения, чтобы я мог использовать еще больше узловдля работы.

Итак, вопрос в том, как можно разделить файлы, скажем, на 10kb? Нужно ли для этого реализовывать свои собственные InputFormatи RecordReaderили нужно установить какой-либо параметр? Спасибо.

24
задан Ahmedov 25 February 2019 в 12:22
поделиться