Как работать с BIG DATA Data Margin/Fact Table? ( 240 миллионов строк )

У нас есть клиент BI, который ежемесячно генерирует около 40 миллионов строк в своих таблицах базы данных о продажах, созданных на основе их транзакций продаж. Они хотят создать витрину данных о продажах со своими историческими данными за 5 лет, а это означает, что эта таблица фактов потенциально будет содержать около 240 миллионов строк. ( 40 x 12 месяцев x 5 лет )

Это хорошо структурированные данные.

Я впервые столкнулся с таким объемом данных, и это побудило меня проанализировать инструменты вертикальных баз данных, такие как Inforbright и другие. Но даже с таким программным обеспечением выполнение простого запроса заняло бы очень и очень много времени.

Это заставило меня взглянуть на Hadoop, но, прочитав несколько статей, я пришел к выводу, что Hadoop — не лучший вариант (даже с Hive) для создания таблицы фактов, поскольку в моем понимании он предназначен для работы с неструктурированными данными. .

Итак, у меня вопрос: как лучше всего построить этот вызов ?? , Разве я не ищу правильную технологию ? Каково было бы лучшее время ответа на запрос, которое я мог бы получить в такой большой таблице фактов? ..или я сталкиваюсь здесь с настоящей стеной, и единственный вариант — построить агрегированные таблицы?

5
задан Eduardo Williams 7 June 2012 в 19:13
поделиться