Мне нужно загрузить большие файлы JSON, записи которых могут занимать несколько строк (, а не файлы )(. полностью зависит от того, как это пишет поставщик данных ).
Elephant -Bird предполагает сжатие LZO, чего, как я знаю, поставщик данных делать не будет.
Статья о Дзонеhttp://java.dzone.com/articles/hadoop-practiceпредполагает, что запись JSON будет находиться в той же строке.
Любые идеи, за исключением сжатия файла JSON..., будут огромными... о том, как правильно разделить файл, чтобы JSON не сломался.
Редактировать :строки, а не файлы