У меня есть куча мелких файлов в каталоге HDFS. Хотя объем файлов относительно невелик, количество времени обработки каждого файла огромно. То есть для обработки файла 64 МБ
, который является размером разделения по умолчанию для TextInputFormat
, потребуется даже несколько часов.
Что мне нужно сделать, так это уменьшить размер разделения, чтобы я мог использовать еще больше узловдля работы.
Итак, вопрос в том, как можно разделить файлы, скажем, на 10kb
? Нужно ли для этого реализовывать свои собственные InputFormat
и RecordReader
или нужно установить какой-либо параметр? Спасибо.