Хранение миллионов файлов журналов - примерно 25 ТБ в год

В рамках моей работы мы получаем файлы журнала объемом около 25 ТБ в год, в настоящее время они сохраняются в файловой системе на основе NFS. Некоторые из них заархивированы как zip / tar.gz, тогда как другие находятся в чисто текстовом формате.

Я ищу альтернативы использованию системы на основе NFS. Я смотрел MongoDB, CouchDB. Тот факт, что это база данных, ориентированная на документы, кажется, делает ее подходящей. Однако содержимое файлов журнала необходимо изменить на JSON для сохранения в БД. То, что я не хочу делать. Мне нужно сохранить содержимое файлов журнала как есть.

Что касается использования, мы намерены использовать небольшой REST API и позволить людям получать список файлов, последние файлы и возможность получить файл.

Предлагаемые решения / идеи должны представлять собой некую форму распределенной базы данных или файловой системы на уровне приложения, где можно хранить файлы журналов и можно эффективно масштабировать по горизонтали, добавляя больше машин.

Ankur

7
задан Ankur Gupta 9 October 2010 в 05:36
поделиться