Удалить дубликаты из набора данных кортежей в Spark

Когда вы НЕ используете широкие символы?

Когда вы пишете код до 1990 года.

Очевидно, я переворачиваюсь, но на самом деле это 21-й век. 127 символов уже давно перестали быть достаточными. Да, вы можете использовать UTF8, но зачем беспокоиться о головных болях?

0
задан Azik 17 January 2019 в 09:32
поделиться

1 ответ

После того, как вы используете joinWith, полученный вами фрейм данных имеет только два столбца. И Spark не поддерживает удаление дубликатов для вложенного столбца.

Вы можете использовать соединение, чтобы сгладить столбцы, вместо joinWith, для которого вы можете указать столбец, для которого вы хотите отбросить дубликаты.

0
ответ дан Jiayi Liao 17 January 2019 в 09:32
поделиться
Другие вопросы по тегам:

Похожие вопросы: