Каковы необходимые технические возможности платформ ETL?

Question

Каковы необходимые технические возможности платформ ETL?

Мы используем коммерческое решение, названное TextAnywhere для этого.

За небольшую плату (несколько пенсов на SMS), они дают Вам веб-сервис (плюс API для.NET, ASP, Java, C++, и т.д.). Это легко, и это работает, хотя это не свободно.

В его самом основном, это столь же просто как создание URL-запроса с числом и текстом сообщения в QueryString, и их сервер делает остальных для Вас.

11

etl

задан 5 revs, 3 users 100% 2 July 2017 в 05:21

3 ответа

Вот случайный список без определенного порядка:

Подключайтесь к широкому кругу источников, включая все основные реляционные базы данных.
Обрабатывайте нереляционные источники данных, такие как текстовые файлы , Excel, XML и т. Д.
Позволяет отображать несколько источников в одну цель.
Предоставляет инструмент, помогающий отображать поля источника в целевые.
Предложите структуру для внедрения преобразований по желанию.
] Программируемый API для написания сложных преобразований.
Оптимизация процесса загрузки для повышения скорости.

4

ответ дан 3 December 2019 в 05:58

Автоматическое / эвристическое сопоставление имен столбцов. Например, простые сопоставления строк:

DB1: customerId

DB2: customer_id

Я считаю, что большая часть работы, которую я (проделал) в DTS / SSIS, могла быть сгенерирована автоматически.

не обязательно "требуется функциональность ", но действительно порадует многих ваших пользователей.

0

ответ дан 3 December 2019 в 05:58

Другие вопросы по тегам:

etl

Похожие вопросы:

score 16 · Accepted Answer

Давайте на мгновение подумаем о вариантах использования ETL.

Извлечение.
- Чтение баз данных через общий адаптер DB-API.
- Чтение плоских файлов через аналогичный адаптер.
- Чтение электронных таблиц через аналогичный адаптер.
Очистка.
- Произвольные правила
- Фильтр и отклонение
- Заменить
- Добавить столбцы данных
Данные профиля.
- Статистические таблицы частот.
Преобразование (см. Очистку, это два варианта использования с одной и той же реализацией)
Выполните поиск соответствия размеров.
- Заменить или добавить значения.
Агрегировать.
- В любой точке конвейера
Нагрузка.
- Или подготовьте плоский файл и запустите загрузчик продукта БД.

Кроме того, существуют некоторые дополнительные требования, которые не являются отдельными вариантами использования.

Каждая отдельная операция должна быть отдельным процессом, который может быть подключен в конвейере Unix, при этом отдельные записи переходят от процесса к процессу. Это использует все ресурсы ЦП.
Вам нужен какой-то основанный на времени планировщик для мест, у которых есть проблемы с обоснованием своих предварительных условий ETL.
Вам нужно основанное на событиях расписание для мест, которые могут определить предварительные условия для шагов обработки ETL.

Примечание. Поскольку ETL привязан к вводу-выводу, использование нескольких потоков не принесет вам пользы. Поскольку каждый процесс выполняется в течение длительного времени - особенно если у вас есть тысячи строк данных для обработки, накладные расходы «тяжелых» процессов не повредят.