Эффективное и масштабируемое хранилище данных JSON с базами данных NoSQL

Мы работаем над проектом, который должен собирать данные журнала и аудита и хранить их в хранилище данных для архивирования и просмотра. Мы не совсем уверены, какое хранилище данных подойдет нам.

  • нам нужно хранить небольшие документы JSON, около 150 байт, например "audit: {отметка времени: '86346512', хост ':' foo ', имя пользователя:' bar ', задача:' foo ', результат: 0}" или "журнал: {отметка времени: '86346512', host ':' foo ', terminalid: 1, type =' bar ', rc = 0} "
  • мы ожидаем около миллиона записей в день, около 150 МБ данных
  • данных будет храниться и прочитанные, но никогда не изменяемые
  • данные должны сохраняться эффективным способом, например двоичный формат, используемый Apache Avro
  • после того, как данные времени хранения могут быть удалены
  • пользовательскими запросами, такими как 'получить аудит для пользователя и периода времени' или 'получить журнал для terminalid и time period '
  • реплицированная база данных для отказоустойчивой
  • масштабируемой

В настоящее время мы оцениваем базы данных NoSQL, такие как Hadoop / Hbase, CouchDB, MongoDB и Cassandra. Подходят ли нам эти базы данных? Какой из них подойдет лучше всего? Есть ли варианты лучше?

7
задан Jeff LaFay 10 June 2015 в 14:28
поделиться