Согласно официальной документации .
Возвращает новый DataFrame с удаленными дублирующимися строками, необязательно только с учетом определенных столбцов .
blockquote>Чтобы удалить дубликаты с учетом всех столбцов:
df.dropDuplicates()
Если хотите удалить дубликаты из определенного столбца
df.dropDuplicate(subset=col_name)
Для нескольких столбцов :
df.dropDuplicates(subset=[col_name1, col_name2])
Редактировать комментарий
df = df.agg(criteria_col).agg(sum(lit(1)).alias('freq')) df = df.filter(col('freq')=1)