Я ищу эти инструменты с открытым исходным кодом, возможно свободные или с ознакомительной версией для установки полной стопки хранилища данных.
Я знаю о немногих, любят открытый исходный код Pentaho сервер Mondrian, но не мог заставить результат Google устанавливать комплексную платформу. Я не уверен, совместимы ли эти компоненты друг с другом? Кто-то мог перечислить их наряду с их положением в цепочке?
Хранилище данных с открытым исходным кодом отлично справляется с определением компонентов OSS, которые можно использовать для создания стека хранилища данных: инфраструктура (серверы, ОС, базы данных), управление интеграцией (ETL, EAI и т. Д.) ), Управление информацией (DW / Mart / ODS, серверы OLap и т. Д.), Доставка информации (портал, информационная панель, клиент аналитики / OLAP и т. Д.). Вот краткое изложение:
Проекты BI / DW с открытым исходным кодом
BI и аналитика
- BEE - http://bee.insightstrategy.cz/en/index.html
- BIRT - http://www.eclipse.org/birt
- JasperSoft - http://www.jaspersoft.com
- MarvelIT - http://www.marvelit.com/dash.html
- OpenI - http://openi.sourceforge.net
- OpenReports - http://oreports.com
- Orange - http://www.ailab.si/ оранжевый
- Пало - http://www.palo.net
- Пентахо - http://www.pentaho.com
- R - http: //www.r -project.org
- SpagoBI - http://spagobi.eng.it
- Weka - http://www.cs.waikato.ac.nz/~ml/index.html
- VitalSigns - http://vitalsigns.sourceforge.net/
Базы данных
- http://greenplum.org (bizgres)
- http://www.ingres.com
- http://www.mysql.com
- http://www.postgresql.org
- http://www.enterprisedb.com
Интеграция
- Апатар - http: / /www.apatar.com
- CloverETL - http: // clo veretl.berlios.de/
- JitterBit - http://www.jitterbit.com/
- KETL - http://www.ketl.org
- Octopus - http : //www.enhydra.org/tech/octopus/index.html
- OSDQ - http: // sourceforge.net / projects / dataquality
- Pentaho - http://www.pentaho.com
- Red Hat - http://www.redhat.com
- Saga.M31 Galaxy - http://galaxy.sagadc.com
- Talend - http://www.talend.com
- SnapLogic - http://www.snaplogic.com
Рекомендую просмотреть презентация. Хорошая вещь.
Стек (или пакет) хранилища данных обычно состоит из трех уровней. Обычно они обозначаются как ETL
(загрузка), База данных
и Отчетность
(интерфейс). Кроме того, существуют несколько более продвинутые инструменты для повышения производительности и потребностей экспертов. Они состоят из кубов
и инструментов статистического анализа
.
Что касается взаимодействия, инструменты ETL и инструменты отчетности должны поддерживать любую базу данных, которую вы используете. Однако, поскольку существует только две большие базы данных с открытым исходным кодом, обычно не возникает проблем с смешиванием разных решений.
Что касается специфики -
1 - ETL
Загрузка данных может быть достигнута с помощью инструментов с открытым исходным кодом, таких как Интеграция данных Pentaho или Talend (расширение eclipse). Я бы посоветовал поискать в Google «open source etl», чтобы адаптировать решение под ваши конкретные нужды.
2 - DB
Вам понадобится реляционная база данных (RDBMS). Двумя наиболее известными игроками с открытым исходным кодом являются PostgreSQL (используется Stack Overflow) и MySQL. В то время как MySQL имеет большую базу пользователей, Postgres набирает все большую популярность с тех пор, как реализовал несколько важных функций, которые отсутствовали в более ранних версиях.
3 - Отчетность
Pentaho предлагает платформу отчетности.Как и BIRT (еще одно расширение eclipse). Опять же, Google - ваш друг для конкретных сравнений. Обратите внимание: если вы выберете Pentaho как для инструментов ETL, так и для отчетов, вы, вероятно, получите лучшую интеграцию. Вы также упомянули Mondrian, инструмент для генерации запросов многомерных выражений через СУБД. MDX - это стандартный язык для запросов к кубам.
На данный момент, предполагая, что вы начинаете с нуля, я бы порекомендовал настроить первые два уровня хранилища данных - ETL и DB. Позже вы можете добавить любое количество инструментов отчетности выше.
Это еще один похожий вопрос 20 миллиардов строк в месяц - Hbase / Hive / Greenplum / Что?
Самая важная часть:
Я не могу подчеркнуть это достаточно: Возьмите что-то, что хорошо сочетается с готовыми инструментами отчетности.
.
Hive или HBase ставят вас перед необходимостью создания собственного front-end, что вам не нужно, если вы не хотите провести следующие 5 лет за написанием пользовательских форматеров отчетов на Python.