Отфильтруйте дубликаты из загруженного набора данных в SSIS

Я выполняю некоторый ETL в SSIS для создания некоторых наборов размерных данных. Одно из них - свидание. При создании набора дат для измерения я могу использовать поиск по тому, что уже есть в измерении даты, и перенаправлять все, что не удалось, которые считаются новыми датами, а затем добавляются в таблицу.

Проблема в том, что набор данных, который у меня есть, может сам содержать повторяющиеся даты. Это вызовет ошибки с уникальными ключами даты при вставке в таблицу измерений. Итак, я ищу способ фильтрации в наборе данных, который загружается в конвейер SSIS.

Я мог бы использовать DISTINCT при начальной загрузке даты, но в данном случае дата - это DATETIME. Позже мне нужно использовать преобразование преобразования данных, чтобы превратить это в DATE, просто взяв компонент даты. Я ищу уникальные дни, а четкие даты в DATETIME мне этого не дадут.

Я не могу использовать поиск SSIS, как раньше, поскольку для этого требуется диспетчер соединений, указывающий на базу данных.

Я мог указать адресату OLE DB не использовать массовую вставку, игнорируя любые ошибки. Однако это предполагает, что единственными ошибками будут повторяющиеся даты.

Я новичок в SSIS и не смог найти инструмент преобразования, который позволил бы мне сравнить с другими строками в наборе.

6
задан alecxe 20 December 2016 в 03:48
поделиться