20 миллиардов Строк/Месяц - Hbase / Hive / Greenplum / Что?

31
задан user 25 December 2013 в 03:59
поделиться

5 ответов

Я имел большой успех с вершина . Я в настоящее время загружаюсь где угодно между 200 миллионами к 1 миллиарду строк через день - усреднение приблизительно 9 низкопробного золота / серебра располагает месяц в ряд - хотя я пошел целых 17 миллиардов за месяц. Я имею близко к 21 размеру и запросам, выполненным ослепительно быстро. Мы шли дальше от более старой системы, когда у нас просто не было окон времени, чтобы сделать dataload.

мы сделали очень исчерпывающую пробную версию и исследование различных решений - и практически посмотрели на все на рынке. While и Teradata и Netezza подошел бы нам, они были просто слишком дорогими для нас. Vertica побеждают их обоих на отношении "цена/производительность". Это колоночная база данных.

у Нас есть приблизительно 80 пользователей теперь - и это, как ожидают, вырастет приблизительно до 900 к концу следующего года, когда мы начнем развертывать полностью.

Мы экстенсивно используем ASP.NET/dundas/reporting сервисы для отчетов. Это также играет по правилам с третьим лицом, сообщающим о решениях - хотя мы не попробовали его.

То, что Вы собираетесь использовать для dataload? Мы используем informatica и были очень довольны им. SSIS управлял нами стена.

9
ответ дан 27 November 2019 в 21:54
поделиться

Я не могу подчеркнуть это достаточно: Получают что-то, что играет приятно со стандартными инструментами создания отчетов.

20 миллиардов рядов в месяц помещают Вас в территорию VLDB, таким образом, Вам нужно разделение. Низкие размеры количества элементов также предположили бы, что растровые индексы будут победой производительности.

  • Забывают облачные системы ( Hive, Hbase), пока у них нет зрелой поддержки SQL. Для применения хранилища данных Вы хотите что-то, что работает с обычными инструментами создания отчетов. Иначе Вы окажетесь, постоянно срывал написание и поддержание специальных программ отчета.

  • объемы данных управляемы с более обычной системой управления базами данных как Oracle - я знаю о крупнейшая европейская телекоммуникационная компания , который загружает 600 ГБ в день в база данных Oracle . При прочих равных условиях это - два порядка величины, больше, чем Ваши объемы данных, таким образом у общей дисковой архитектуры все еще есть высота для Вас. разделенный - ничто архитектура как Netezza или Teradata, вероятно, будет быстрее все еще, но эти объемы не на уровне, который является вне обычной системы общего диска. Примите во внимание, тем не менее, что эти системы все довольно дорогие.

  • Также принимают во внимание, что MapReduce не эффективный алгоритм выбора вопроса. Это - существенно механизм для распределения вычислений «в лоб». У Greenplum действительно есть бэкенд MapReduce, но специальное не разделило ничего, что двигатель будет намного более эффективным и получит больше работы, сделанной для меньшего количества аппаратных средств.

Мое взятие на этом - то, что Teradata или Netezza, вероятно, были бы идеальным инструментом для работы, но определенно самого дорогого. Oracle, Sybase IQ или даже SQL-сервер также обработал бы включенные объемы данных, но будет медленнее - они - разделенная дисковая архитектура, но могут все еще управлять этим видом объема данных. См. , Эта отправка почтой для краткого изложения на VLDB связала характеристики в Oracle и SQL-сервере, и примите во внимание, что Oracle только что ввел платформа хранения Exadata также.

Моя спина плана производительности пакета сигареты предлагает, возможно, TB 3-5 или так в месяц включая индексы для Oracle или SQL-сервера. Вероятно, меньше на Oracle с растровыми индексами, хотя у листа индекса есть 16-байтовый ROWID на оракуле против 6-байтовой ссылки страницы на SQL-сервере.

IQ Sybase делает широкое применение растровых индексов и оптимизирован для вопросов хранилища данных. Хотя архитектура общего диска, это очень эффективно для этого типа вопроса (IIRC, это была ориентированная на первоначальный столбец архитектура). Это, вероятно, было бы лучше, чем Oracle или SQL-сервер, поскольку он специализирован для этого типа работы.

Greenplum мог бы быть более дешевым выбором, но я на самом деле никогда не использовал его так, я не могу прокомментировать, как хорошо он работает на практике.

, Если у Вас есть 10 размеров со всего несколькими сотнями рядов, рассматривают слияние их в сингл измерение барахла , который сократит Вашу таблицу фактов, объединяя эти десять ключей во всего один. Вы можете все еще реализовать иерархии на измерении барахла, и это пробило бы 1/2 или больше от размера Вашей таблицы фактов и устранило бы большое дисковое использование индексами.

я настоятельно рекомендую это, Вы идете с чем-то, что играет приятно с разумным поперечным сечением инструментов создания отчетов. Это означает фронтенд SQL. Коммерческие системы как Кристаллические Отчеты позволяют сообщать и аналитика, которая будет сделана людьми с с большей готовностью доступным набором навыков SQL. Общедоступный мир также генерировал BIRT, Отчеты и Джаспера Pentaho. . Hive или HBase помещают Вас в бизнес строительства сделанного на заказ фронтенда, который Вы действительно не хотите, если Вы не рады провести следующие 5 лет, сочиняя средства форматирования пользовательского отчета в Пайтоне.

Наконец, примите его где-нибудь, Вы можете легко получить быструю подачу данных от своих систем производства. Это, вероятно, означает Ваши собственные аппаратные средства в Вашем собственном центре обработки данных. Эта система будет связанным вводом/выводом; это делает простую обработку на больших объемах данных. Это означает, что Вам будут нужны машины с быстрыми дисковыми подсистемами. Поставщики «облачной» инфраструктуры склонны не поддерживать этот тип аппаратных средств, поскольку это - порядок величины, более дорогой, чем тип доступных 1U коробка, традиционно используемая этим оборудованием. Быстрый Дисковый ввод/вывод не сила облачной архитектуры.

56
ответ дан 27 November 2019 в 21:54
поделиться

Считайте сайт Монаша: http://www.dbms2.com/ Он пишет о больших базах данных.

, Возможно, можно использовать Oracle Exadata ( http://www.oracle.com/solutions/business_intelligence/exadata.html и http://kevinclosson.wordpress.com/exadata-posts/ ), или возможно можно использовать Hadoop. Hadoop свободен.

2
ответ дан 27 November 2019 в 21:54
поделиться

NXC, действительно ли Вы уверены в тех 600 миллиардах строк в день? Даже если одна строка была бы всего один байт, это составляет 600 ГБ данных ежедневно. Принимая более разумные 100 байтов за строку, мы говорим приблизительно 60 ТБ данных в день, 1,8 ПБ в месяц. Я действительно сомневаюсь, что кто-либо качает так много данных через Oracle.

Другие Источники , кажется, подтверждают, что Oracle становится довольно трудной обработать, когда объем данных достигает 2-разрядных показателей ТБ.

0
ответ дан 27 November 2019 в 21:54
поделиться

Альтернатива для небольшого числа пользователей была бы (Беовульф) кластером. 20K покупает Вас 50 неттопов с 500G каждый. Это - пиковая мощность приблизительно на 3 кВт. Или 4 месяца облачного хранилища.

0
ответ дан 27 November 2019 в 21:54
поделиться
Другие вопросы по тегам:

Похожие вопросы: