Каковы инструменты с открытым исходным кодом и методы для создания полной платформы хранилища данных? [закрытый]

Question

Каковы инструменты с открытым исходным кодом и методы для создания полной платформы хранилища данных? [закрытый]

Я ищу эти инструменты с открытым исходным кодом, возможно свободные или с ознакомительной версией для установки полной стопки хранилища данных.

Я знаю о немногих, любят открытый исходный код Pentaho сервер Mondrian, но не мог заставить результат Google устанавливать комплексную платформу. Я не уверен, совместимы ли эти компоненты друг с другом? Кто-то мог перечислить их наряду с их положением в цепочке?

35

open-source data-warehouse

задан Acumenus 24 March 2018 в 14:25

3 ответа

Стек (или пакет) хранилища данных обычно состоит из трех уровней. Обычно они обозначаются как ETL (загрузка), База данных и Отчетность (интерфейс). Кроме того, существуют несколько более продвинутые инструменты для повышения производительности и потребностей экспертов. Они состоят из кубов и инструментов статистического анализа .

Что касается взаимодействия, инструменты ETL и инструменты отчетности должны поддерживать любую базу данных, которую вы используете. Однако, поскольку существует только две большие базы данных с открытым исходным кодом, обычно не возникает проблем с смешиванием разных решений.

Что касается специфики -

1 - ETL

Загрузка данных может быть достигнута с помощью инструментов с открытым исходным кодом, таких как Интеграция данных Pentaho или Talend (расширение eclipse). Я бы посоветовал поискать в Google «open source etl», чтобы адаптировать решение под ваши конкретные нужды.

2 - DB

Вам понадобится реляционная база данных (RDBMS). Двумя наиболее известными игроками с открытым исходным кодом являются PostgreSQL (используется Stack Overflow) и MySQL. В то время как MySQL имеет большую базу пользователей, Postgres набирает все большую популярность с тех пор, как реализовал несколько важных функций, которые отсутствовали в более ранних версиях.

3 - Отчетность

Pentaho предлагает платформу отчетности.Как и BIRT (еще одно расширение eclipse). Опять же, Google - ваш друг для конкретных сравнений. Обратите внимание: если вы выберете Pentaho как для инструментов ETL, так и для отчетов, вы, вероятно, получите лучшую интеграцию. Вы также упомянули Mondrian, инструмент для генерации запросов многомерных выражений через СУБД. MDX - это стандартный язык для запросов к кубам.

На данный момент, предполагая, что вы начинаете с нуля, я бы порекомендовал настроить первые два уровня хранилища данных - ETL и DB. Позже вы можете добавить любое количество инструментов отчетности выше.

10

ответ дан 27 November 2019 в 07:00

Это еще один похожий вопрос 20 миллиардов строк в месяц - Hbase / Hive / Greenplum / Что?

Самая важная часть:

Я не могу подчеркнуть это достаточно: Возьмите что-то, что хорошо сочетается с готовыми инструментами отчетности.

.

Hive или HBase ставят вас перед необходимостью создания собственного front-end, что вам не нужно, если вы не хотите провести следующие 5 лет за написанием пользовательских форматеров отчетов на Python.

4

ответ дан 27 November 2019 в 07:00

Другие вопросы по тегам:

open-source data-warehouse

Похожие вопросы:

score 51 · Accepted Answer

Хранилище данных с открытым исходным кодом отлично справляется с определением компонентов OSS, которые можно использовать для создания стека хранилища данных: инфраструктура (серверы, ОС, базы данных), управление интеграцией (ETL, EAI и т. Д.) ), Управление информацией (DW / Mart / ODS, серверы OLap и т. Д.), Доставка информации (портал, информационная панель, клиент аналитики / OLAP и т. Д.). Вот краткое изложение:

Проекты BI / DW с открытым исходным кодом

BI и аналитика

BEE - http://bee.insightstrategy.cz/en/index.html

BIRT - http://www.eclipse.org/birt

JasperSoft - http://www.jaspersoft.com

MarvelIT - http://www.marvelit.com/dash.html

OpenI - http://openi.sourceforge.net

OpenReports - http://oreports.com

Orange - http://www.ailab.si/ оранжевый

Пало - http://www.palo.net

Пентахо - http://www.pentaho.com

R - http: //www.r -project.org

SpagoBI - http://spagobi.eng.it

Weka - http://www.cs.waikato.ac.nz/~ml/index.html

VitalSigns - http://vitalsigns.sourceforge.net/

Базы данных

http://greenplum.org (bizgres)

http://www.ingres.com

http://www.mysql.com

http://www.postgresql.org

http://www.enterprisedb.com

Интеграция

Апатар - http: / /www.apatar.com

CloverETL - http: // clo veretl.berlios.de/

JitterBit - http://www.jitterbit.com/

KETL - http://www.ketl.org

Octopus - http : //www.enhydra.org/tech/octopus/index.html

OSDQ - http: // sourceforge.net / projects / dataquality

Pentaho - http://www.pentaho.com

Red Hat - http://www.redhat.com

Saga.M31 Galaxy - http://galaxy.sagadc.com

Talend - http://www.talend.com

SnapLogic - http://www.snaplogic.com

Рекомендую просмотреть презентация. Хорошая вещь.