Каковы инструменты с открытым исходным кодом и методы для создания полной платформы хранилища данных? [закрытый]

Я ищу эти инструменты с открытым исходным кодом, возможно свободные или с ознакомительной версией для установки полной стопки хранилища данных.

Я знаю о немногих, любят открытый исходный код Pentaho сервер Mondrian, но не мог заставить результат Google устанавливать комплексную платформу. Я не уверен, совместимы ли эти компоненты друг с другом? Кто-то мог перечислить их наряду с их положением в цепочке?

35
задан Acumenus 24 March 2018 в 14:25
поделиться

3 ответа

Хранилище данных с открытым исходным кодом отлично справляется с определением компонентов OSS, которые можно использовать для создания стека хранилища данных: инфраструктура (серверы, ОС, базы данных), управление интеграцией (ETL, EAI и т. Д.) ), Управление информацией (DW / Mart / ODS, серверы OLap и т. Д.), Доставка информации (портал, информационная панель, клиент аналитики / OLAP и т. Д.). Вот краткое изложение:

Проекты BI / DW с открытым исходным кодом

BI и аналитика

Базы данных

Интеграция

Рекомендую просмотреть презентация. Хорошая вещь.

51
ответ дан 27 November 2019 в 07:00
поделиться

Стек (или пакет) хранилища данных обычно состоит из трех уровней. Обычно они обозначаются как ETL (загрузка), База данных и Отчетность (интерфейс). Кроме того, существуют несколько более продвинутые инструменты для повышения производительности и потребностей экспертов. Они состоят из кубов и инструментов статистического анализа .

Что касается взаимодействия, инструменты ETL и инструменты отчетности должны поддерживать любую базу данных, которую вы используете. Однако, поскольку существует только две большие базы данных с открытым исходным кодом, обычно не возникает проблем с смешиванием разных решений.

Что касается специфики -

1 - ETL

Загрузка данных может быть достигнута с помощью инструментов с открытым исходным кодом, таких как Интеграция данных Pentaho или Talend (расширение eclipse). Я бы посоветовал поискать в Google «open source etl», чтобы адаптировать решение под ваши конкретные нужды.

2 - DB

Вам понадобится реляционная база данных (RDBMS). Двумя наиболее известными игроками с открытым исходным кодом являются PostgreSQL (используется Stack Overflow) и MySQL. В то время как MySQL имеет большую базу пользователей, Postgres набирает все большую популярность с тех пор, как реализовал несколько важных функций, которые отсутствовали в более ранних версиях.

3 - Отчетность

Pentaho предлагает платформу отчетности.Как и BIRT (еще одно расширение eclipse). Опять же, Google - ваш друг для конкретных сравнений. Обратите внимание: если вы выберете Pentaho как для инструментов ETL, так и для отчетов, вы, вероятно, получите лучшую интеграцию. Вы также упомянули Mondrian, инструмент для генерации запросов многомерных выражений через СУБД. MDX - это стандартный язык для запросов к кубам.

На данный момент, предполагая, что вы начинаете с нуля, я бы порекомендовал настроить первые два уровня хранилища данных - ETL и DB. Позже вы можете добавить любое количество инструментов отчетности выше.

10
ответ дан 27 November 2019 в 07:00
поделиться

Это еще один похожий вопрос 20 миллиардов строк в месяц - Hbase / Hive / Greenplum / Что?

Самая важная часть:

Я не могу подчеркнуть это достаточно: Возьмите что-то, что хорошо сочетается с готовыми инструментами отчетности.

.

Hive или HBase ставят вас перед необходимостью создания собственного front-end, что вам не нужно, если вы не хотите провести следующие 5 лет за написанием пользовательских форматеров отчетов на Python.

4
ответ дан 27 November 2019 в 07:00
поделиться
Другие вопросы по тегам:

Похожие вопросы: