Как удалить дублирующиеся строки из плоского файла с помощью SSIS?

Question

Как удалить дублирующиеся строки из плоского файла с помощью SSIS?

1125 Я столкнулся с той же проблемой. Я сделал следующие изменения на основе этого поста по ответам ROS и комментария ниже в универсальном файле CMakeLists.txt для макроса catkin_packages:

## LIBRARIES: libraries you create in this project that dependent projects also need

Я сделал несколько вещей, чтобы исправить это ...

Добавлен LIBRARIES agentlib в макрос catkin_packages в файле rl_agent/CMakeLists.txt. Это делает библиотеку agentlib доступной позже rl_experiment.
Добавлен LIBRARIES envlib в макрос catkin_packages в файле rl_env/CMakeLists.txt. Это делает библиотеку envlib позже доступной для rl_experiment.
Удалены agentlib и envlib из макроса target_link_libraries в файле rl_experiment/CMakeLists.txt. Это не обязательно.
Проверенные пакеты rl_agent и rl_env перечислены в макросе find_package в rl_experiment/CMakeLists.txt.

... тогда все успешно скомпилировано.

6

duplicate-removal business-intelligence duplicates ssis sql-server

задан John Saunders 6 September 2012 в 18:12

8 ответов

Другие вопросы по тегам:

duplicate-removal business-intelligence duplicates ssis sql-server

Похожие вопросы:

score 23 · Answer 1

Используйте компонент вида.

Просто выберите, по каким полям Вы хотите отсортировать свои загруженные строки, и в левом нижнем угле Вы будете видеть флажок для удаления дубликатов. Это поле удаляет любые строки, которые являются дубликатами на основе критериев сортировки только, таким образом, в примере ниже строк считался бы дубликатом, если бы мы только отсортировали на первом поле:

1 | sample A |
1 | sample B |

score 6 · Answer 2

Я предложил бы использовать SSIS для копирования записей на временную таблицу, затем создал бы задачу, которая использует Отличный Выбор или Разряд в зависимости от ситуации для выбора дубликатов, которые направили бы их к плоскому файлу и удалили бы их из временной таблицы. Последний шаг должен был бы скопировать записи с временной таблицы в конечную таблицу.

Определение дубликата является чем-то, к чему SQL способен, но плоский файл также не подходит для. В случае Вы сделали предложение, контейнер сценария загрузит строку и затем должен был бы сравнить ее с 17 миллионами записей, затем загрузить следующую строку и повторение... Производительность не могла бы быть весь настолько большая.

score 2 · Answer 3

Стратегия будет обычно зависеть от того, сколько столбцов таблица подготовки имеет. Чем больше столбцов, тем более сложный решение. Статья, которую Вы связали, имеет некоторый очень хороший совет.

Единственная вещь, которую я добавлю к тому, что все другие сказали до сих пор, состоит в том, что столбцы с датой и значениями даты и времени дадут некоторые решения, представленные, здесь соответствует.

Одно решение, которое я предложил, является этим:

SET NOCOUNT ON

DECLARE @email varchar(100)

SET @email = ''

SET @emailid = (SELECT min(email) from StagingTable WITH (NOLOCK) WHERE email > @email)

WHILE @emailid IS NOT NULL
BEGIN

    -- Do INSERT statement based on the email
    INSERT StagingTable2 (Email)
    FROM StagingTable WITH (NOLOCK) 
    WHERE email = @email

    SET @emailid = (SELECT min(email) from StagingTable WITH (NOLOCK) WHERE email > @email)

END

Это НАМНОГО быстрее при выполнении дедупликации, чем КУРСОР и не привяжет ЦП сервера. Для использования этого разделите каждый столбец, который прибывает из текстового файла в их собственные переменные. Используйте отдельный оператор SELECT прежде и в цикле, затем включайте их в оператор INSERT. Это работало действительно хорошо на меня.

score 2 · Answer 4

Чтобы сделать это на плоском файле, я использую инструмент командной строки Unix, вид:

sort -u inputfile > outputfile

К сожалению, команда вида окон не имеет уникальной опции, но Вы могли попытаться загрузить утилиту сортировки с одного из них:

(Я не судил их, таким образом, никакие гарантии, я боюсь).

С другой стороны, чтобы сделать это как записи загружается в базу данных, Вы могли создать уникальный индекс на ключе таблица базы данных с ignore_dup_key. Это сделает записи уникальными очень эффективно во время загрузки.

CREATE UNIQUE INDEX idx1 ON TABLE (col1, col2, ...) WITH IGNORE_DUP_KEY

score 2 · Answer 5

Определенное грязное решение состоит в том, чтобы накрыть на Ваш целевой стол с составным ключом, который охватывает все столбцы. Это гарантирует раздутую уникальность. Затем на форме Адресата данных, настройте задачу проигнорировать ошибки. Весь дубликат вставляет, уменьшится в забвение.

score 4 · Answer 6

Источник плоского файла -> Агрегировать (сгруппировать по столбцам, которые должны быть уникальными) -> Место назначения плоского файла

score 1 · Answer 7

Я бы порекомендовал загрузить промежуточную таблицу на целевом сервере, а затем объединить результаты в целевую таблицу на целевом сервере. Если вам нужно выполнить какие-либо правила гигиены, вы можете сделать это с помощью хранимой процедуры, поскольку вы обязательно получите лучшую производительность, чем с помощью задач преобразования потока данных SSIS. Кроме того, дедупликация - это, как правило, многоэтапный процесс. Вы можете выполнить дедупликацию на:

Отдельных строках.
Различных группах столбцов, таких как имя, фамилия, адрес электронной почты и т. Д.
Вы можете выполнить дедупликацию по существующей целевой таблице. В этом случае вам может потребоваться включить операторы NOT EXISTS или NOT IN. Или вы можете обновить исходную строку новыми значениями. Обычно это лучше всего выполняется с помощью оператора MERGE и подзапроса для источника.
Возьмите первый или последний ряд определенного узора. Например, вам может потребоваться вводить последнюю строку в файл для каждого вхождения адреса электронной почты или номера телефона. Обычно я полагаюсь на CTE с ROW_NUMBER () для генерации столбцов последовательного и обратного порядка, как в следующем примере:

.

WITH    
    sample_records 
    (       email_address
        ,   entry_date
        ,   row_identifier
    )
    AS
    (
            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   1
        UNION ALL

            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:01'
                    ,   2

        UNION ALL

            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:02'
                    ,   3

        UNION ALL

            SELECT      'the_other_test@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   4

        UNION ALL

            SELECT      'the_other_test@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   5
    )
,   filter_records 
    (       email_address
        ,   entry_date
        ,   row_identifier
        ,   sequential_order
        ,   reverse_order
    )
    AS
    (
        SELECT  email_address
            ,   entry_date
            ,   row_identifier
            ,   'sequential_order'  = ROW_NUMBER() OVER (
                                        PARTITION BY    email_address 
                                        ORDER BY        row_identifier ASC)
            ,   'reverse_order'     = ROW_NUMBER() OVER (
                                        PARTITION BY    email_address
                                        ORDER BY        row_identifier DESC)
        FROM    sample_records
    )
    SELECT      email_address
            ,   entry_date
            ,   row_identifier
    FROM        filter_records
    WHERE       reverse_order = 1
    ORDER BY    email_address;

Есть много вариантов для дедупликации файлов, но в конечном итоге я рекомендую обрабатывать это в сохраненном после загрузки промежуточной таблицы на целевой сервер. После очистки данных вы можете СЛИЯТЬ или ВСТАВИТЬ в конечный пункт назначения.

.

WITH    
    sample_records 
    (       email_address
        ,   entry_date
        ,   row_identifier
    )
    AS
    (
            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   1
        UNION ALL

            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:01'
                    ,   2

        UNION ALL

            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:02'
                    ,   3

        UNION ALL

            SELECT      'the_other_test@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   4

        UNION ALL

            SELECT      'the_other_test@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   5
    )
,   filter_records 
    (       email_address
        ,   entry_date
        ,   row_identifier
        ,   sequential_order
        ,   reverse_order
    )
    AS
    (
        SELECT  email_address
            ,   entry_date
            ,   row_identifier
            ,   'sequential_order'  = ROW_NUMBER() OVER (
                                        PARTITION BY    email_address 
                                        ORDER BY        row_identifier ASC)
            ,   'reverse_order'     = ROW_NUMBER() OVER (
                                        PARTITION BY    email_address
                                        ORDER BY        row_identifier DESC)
        FROM    sample_records
    )
    SELECT      email_address
            ,   entry_date
            ,   row_identifier
    FROM        filter_records
    WHERE       reverse_order = 1
    ORDER BY    email_address;

Есть много вариантов дедупликации файлов, но в конечном итоге я рекомендую обработать это в хранимой процедуре после того, как вы загрузили промежуточную таблицу на целевой сервер. После очистки данных вы можете СЛИЯТЬ или ВСТАВИТЬ в конечный пункт назначения.

.

WITH    
    sample_records 
    (       email_address
        ,   entry_date
        ,   row_identifier
    )
    AS
    (
            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   1
        UNION ALL

            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:01'
                    ,   2

        UNION ALL

            SELECT      'tester@test.com'
                    ,   '2009-10-08 10:00:02'
                    ,   3

        UNION ALL

            SELECT      'the_other_test@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   4

        UNION ALL

            SELECT      'the_other_test@test.com'
                    ,   '2009-10-08 10:00:00'
                    ,   5
    )
,   filter_records 
    (       email_address
        ,   entry_date
        ,   row_identifier
        ,   sequential_order
        ,   reverse_order
    )
    AS
    (
        SELECT  email_address
            ,   entry_date
            ,   row_identifier
            ,   'sequential_order'  = ROW_NUMBER() OVER (
                                        PARTITION BY    email_address 
                                        ORDER BY        row_identifier ASC)
            ,   'reverse_order'     = ROW_NUMBER() OVER (
                                        PARTITION BY    email_address
                                        ORDER BY        row_identifier DESC)
        FROM    sample_records
    )
    SELECT      email_address
            ,   entry_date
            ,   row_identifier
    FROM        filter_records
    WHERE       reverse_order = 1
    ORDER BY    email_address;

Есть много вариантов дедупликации файлов, но в конечном итоге я рекомендую обработать это в хранимой процедуре после того, как вы загрузили промежуточную таблицу на целевой сервер. После очистки данных вы можете СЛИЯТЬ или ВСТАВИТЬ в конечный пункт назначения.

score 1 · Answer 8

Найдена эта страница текст ссылки , возможно, стоит посмотреть, хотя с 17 миллионами записей может потребоваться слишком много времени