Запустите аналитику на огромной базе данных MySQL

У меня есть база данных MySQL с несколькими (пять, если быть точным) огромными таблицами. По сути, это хранилище данных на основе звездообразной топологии. Размеры таблиц варьируются от 700 ГБ (таблица фактов) до 1 ГБ, а вся база данных достигает 1 терабайта. Теперь мне дали задание запустить аналитику для этих таблиц, которая может даже включать соединения. Простым аналитическим запросом к этой базе данных может быть «найти количество курильщиков в штате и отобразить его в порядке убывания». Это требование можно преобразовать в простой запрос, например

select state, count(smokingStatus) as smokers 
from abc 
having smokingstatus='current smoker' 
group by state....

. время выполнения в этой базе данных занимает порядка десятков часов.

Эта база данных также активно используется для вставки, что означает, что каждые несколько минут добавляются тысячи строк.

Как в таком случае решить эту проблему запросов? Я посмотрел в Cassandra, который показался простым в реализации, но я не уверен, будет ли он таким же простым для выполнения аналитических запросов к базе данных, особенно когда мне приходится использовать «предложение where и группировать по конструкции»

. в Hadoop, но я не уверен, как реализовать запросы типа РСУБД. Я не слишком уверен, хочу ли я сразу инвестировать в получение по крайней мере трех машин для узлов имени, зоопарка и узлов данных!! Прежде всего, наша компания отдает предпочтение решениям на базе Windows.

Я также думал о предварительном вычислении всех данных в более простых сводных таблицах, но это ограничивает мою способность выполнять различные типы запросов.

Есть ли другие идеи, которые я могу реализовать?

РЕДАКТИРОВАТЬ

Ниже приведена настройка среды mysql

1) настройка ведущий-ведомый 2) мастер для вставок/обновлений 3) подчиненный для чтения и запуска хранимых процедур 4) все таблицы innodb с файлами на таблицу 5) индексирует строку, а также столбцы int.

Предварительное вычисление значений является опцией, но поскольку требования к такого рода специальным агрегированным значениям постоянно меняются.

6
задан Sap 20 March 2012 в 14:15
поделиться