Каковы необходимые технические возможности платформ ETL?

Мы используем коммерческое решение, названное TextAnywhere для этого.

За небольшую плату (несколько пенсов на SMS), они дают Вам веб-сервис (плюс API для.NET, ASP, Java, C++, и т.д.). Это легко, и это работает, хотя это не свободно.

В его самом основном, это столь же просто как создание URL-запроса с числом и текстом сообщения в QueryString, и их сервер делает остальных для Вас.

11
задан 5 revs, 3 users 100% 2 July 2017 в 05:21
поделиться

3 ответа

Давайте на мгновение подумаем о вариантах использования ETL.

  1. Извлечение.
    • Чтение баз данных через общий адаптер DB-API.
    • Чтение плоских файлов через аналогичный адаптер.
    • Чтение электронных таблиц через аналогичный адаптер.
  2. Очистка.
    • Произвольные правила
    • Фильтр и отклонение
    • Заменить
    • Добавить столбцы данных
  3. Данные профиля.
    • Статистические таблицы частот.
  4. Преобразование (см. Очистку, это два варианта использования с одной и той же реализацией)
  5. Выполните поиск соответствия размеров.
    • Заменить или добавить значения.
  6. Агрегировать.
    • В любой точке конвейера
  7. Нагрузка.
    • Или подготовьте плоский файл и запустите загрузчик продукта БД.

Кроме того, существуют некоторые дополнительные требования, которые не являются отдельными вариантами использования.

  • Каждая отдельная операция должна быть отдельным процессом, который может быть подключен в конвейере Unix, при этом отдельные записи переходят от процесса к процессу. Это использует все ресурсы ЦП.

  • Вам нужен какой-то основанный на времени планировщик для мест, у которых есть проблемы с обоснованием своих предварительных условий ETL.

  • Вам нужно основанное на событиях расписание для мест, которые могут определить предварительные условия для шагов обработки ETL.

Примечание. Поскольку ETL привязан к вводу-выводу, использование нескольких потоков не принесет вам пользы. Поскольку каждый процесс выполняется в течение длительного времени - особенно если у вас есть тысячи строк данных для обработки, накладные расходы «тяжелых» процессов не повредят.

16
ответ дан 3 December 2019 в 05:58
поделиться

Вот случайный список без определенного порядка:

  1. Подключайтесь к широкому кругу источников, включая все основные реляционные базы данных.
  2. Обрабатывайте нереляционные источники данных, такие как текстовые файлы , Excel, XML и т. Д.
  3. Позволяет отображать несколько источников в одну цель.
  4. Предоставляет инструмент, помогающий отображать поля источника в целевые.
  5. Предложите структуру для внедрения преобразований по желанию.
  6. ] Программируемый API для написания сложных преобразований.
  7. Оптимизация процесса загрузки для повышения скорости.
4
ответ дан 3 December 2019 в 05:58
поделиться

Автоматическое / эвристическое сопоставление имен столбцов. Например, простые сопоставления строк:

DB1: customerId

DB2: customer_id

Я считаю, что большая часть работы, которую я (проделал) в DTS / SSIS, могла быть сгенерирована автоматически.

  • не обязательно "требуется функциональность ", но действительно порадует многих ваших пользователей.
0
ответ дан 3 December 2019 в 05:58
поделиться
Другие вопросы по тегам:

Похожие вопросы: