Pyspark сохраняет только отчетливые (удалять все дубликаты)

Сначала добавьте метки вокруг ваших входов. Во-вторых, используйте getName (this.parentNode). Наконец, вызовите innerText вместо innerHtml.

<html>
<head>
<script>
function setName(el){
    document.getElementById('searchtitle').innerHTML = "Enter " + el.innerText;
}
</script>
</head>
<body>
<label><input type="radio" name="searchtype" value="name" onclick="setName(this.parentNode)"/>Last 

Name</label><br/>
<label><input type="radio" name="searchtype" value="phonenumber" onclick="setName(this.parentNode)"/>Phone 

Number</label><br/>

<label for="inputfield" id="searchtitle" style="font-size:2em;">Enter Last Name</label><br/>
<input type="text" name="inputfield" id="inputfield" style="font-size:2em;"></input>
</body>
</html>
0
задан PMG123 13 July 2018 в 10:07
поделиться

1 ответ

dropDuplicates ()

Согласно официальной документации .

Возвращает новый DataFrame с удаленными дублирующимися строками, необязательно только с учетом определенных столбцов .

Чтобы удалить дубликаты с учетом всех столбцов:

df.dropDuplicates()

Если хотите удалить дубликаты из определенного столбца

df.dropDuplicate(subset=col_name)

Для нескольких столбцов :

df.dropDuplicates(subset=[col_name1, col_name2])

Редактировать комментарий

df =  df.agg(criteria_col).agg(sum(lit(1)).alias('freq'))

df = df.filter(col('freq')=1)
0
ответ дан Rahul Chawla 17 August 2018 в 13:11
поделиться
  • 1
    Я использовал df.dropDuplicate (subset = col_name), но я считаю, что это сохраняет строку, которая является первой в наборе дубликатов. Я хочу, чтобы мой dataframe после присоединения содержал только 1-1 ссылки между идентификаторами предоставляемых данных – PMG123 13 July 2018 в 11:01
  • 2
    @ PMG123 отредактировал ответ. – Rahul Chawla 13 July 2018 в 13:44
Другие вопросы по тегам:

Похожие вопросы: