Загрузка данных в CSV-файл в HBase с использованием Pig

Для выбора дубликатов только формат запроса может быть:

SELECT GroupFunction(column1), GroupFunction(column2),..., 
COUNT(column1), column1, column2...
FROM our_table
GROUP BY column1, column2, column3...
HAVING COUNT(column1) > 1

Таким образом, правильный запрос в соответствии с другим предложением:

DELETE FROM tablename a
      WHERE a.ROWID > ANY (SELECT b.ROWID
                             FROM tablename b
                            WHERE a.fieldname = b.fieldname
                              AND a.fieldname2 = b.fieldname2
                              AND ....so on.. to identify the duplicate rows....)

Этот запрос будет содержать самый старый запись в базе данных для критериев, выбранных в WHERE CLAUSE.

Сертифицированный специалист Oracle (2008)

0
задан Robert 31 December 2018 в 17:05
поделиться