Бесплатное хранилище данных - Infobright, Hadoop/Hive или что?

Я должен сохранить большую сумму маленьких объектов данных (миллионы строк в месяц). После того как они сохраняются они изменение привычки. Я должен:

  • сохраните их надежно
  • используйте их для анализа (главным образом ориентированный на время)
  • получайте некоторые необработанные данные иногда
  • Было бы хорошо, если это могло бы использоваться с JasperReports или BIRT

Мой первый выстрел был Сообществом Infobright - просто ориентированный на столбец, механизм хранения только для чтения для MySQL

С другой стороны, люди говорит, что подход NoSQL мог быть лучше. Hadoop+Hive выглядит пронедостающим, но документация выглядит плохой, и номер версии - меньше чем 1,0.

Я слышал о Гипертаблице, Pentaho, MongoDB....

У Вас есть какие-либо рекомендации?

(Да, я нашел некоторые темы здесь, но это был год или два назад),

Править: Другие решения: MonetDB, InfiniDB, LucidDB - что Вы думаете?

5
задан Tommi 23 May 2012 в 06:24
поделиться

2 ответа

Если вы ищете совместимость с инструментами создания отчетов, лучше всего подойдет что-нибудь на основе MySQL. Что касается того, что подойдет вам, Infobright может сработать. Есть также несколько других решений, однако вы можете также взглянуть на старый добрый MySQL и таблицу Archive. Каждая запись сжимается и хранится, и, IIRC, она предназначена для вашего типа рабочей нагрузки, однако я думаю, что Infobright должна получить лучшее сжатие. Я ни того, ни другого особо не использовал, поэтому не уверен, что лучше всего подойдет вам.

Что касается хранилищ ключей и значений (например, NoSQL), да, они тоже могут работать, и существует множество альтернатив. Я знаю, что в CouchDB есть «представления», но у меня не было возможности их использовать, поэтому я не знаю, насколько хорошо они работают.

Меня беспокоит ваш набор данных только потому, что, поскольку вы упомянули время, вы можете убедиться, что любое используемое вами решение позволит вам архивировать данные за определенное время. Обычная практика хранилищ данных - хранить данные в оперативном режиме только N месяцев, а остальные архивировать. Здесь очень полезно использовать разделение, реализованное в РСУБД.

0
ответ дан 14 December 2019 в 19:10
поделиться

Вы также можете рассмотреть GridSQL. Даже для одного сервера вы можете создать несколько логических «узлов» для использования нескольких ядер при обработке запросов.

GridSQL использует PostgreSQL, поэтому вы также можете воспользоваться преимуществами разделения таблиц на подтаблицы для более быстрой оценки запросов. Вы упомянули, что данные ориентированы по времени, поэтому это будет хорошим кандидатом для создания подтаблиц.

2
ответ дан 14 December 2019 в 19:10
поделиться
Другие вопросы по тегам:

Похожие вопросы: