PySpark группируется по 2 столбцам, чтобы получить первое число за группу [duplicate]

Question

PySpark группируется по 2 столбцам, чтобы получить первое число за группу [duplicate]

Другое событие NullPointerException возникает, когда объявляется массив объектов, а затем сразу же пытается разыменовать его внутри.

String[] phrases = new String[10];
String keyPhrase = "Bird";
for(String phrase : phrases) {
    System.out.println(phrase.equals(keyPhrase));
}

Этот конкретный NPE можно избежать, если порядок сравнения отменяется ; а именно, использовать .equals для гарантированного непустого объекта.

Все элементы внутри массива инициализируются их общим начальным значением ; для любого типа массива объектов, это означает, что все элементы null.

Вы должны инициализировать элементы в массиве перед доступом или разыменованием их.

String[] phrases = new String[] {"The bird", "A bird", "My bird", "Bird"};
String keyPhrase = "Bird";
for(String phrase : phrases) {
    System.out.println(phrase.equals(keyPhrase));
}

5

python pandas pyspark pyspark-sql

задан Jared 26 June 2015 в 03:08

2 ответа

, если у вас есть фрейм данных и вы хотите удалить все дубликаты - со ссылкой на дубликаты в определенном столбце (называемое «colName»):

подсчитать перед дедушкой:

df.count()

выполните де-dupe (конвертируйте колонку, которую вы обнуляете в тип строки):

from pyspark.sql.functions import col
df = df.withColumn('colName',col('colName').cast('string'))

df.drop_duplicates(subset=['colName']).count()

может использовать отсортированную группу, чтобы проверить, удалены ли дубликаты:

df.groupBy('colName').count().toPandas().set_index("count").sort_index(ascending=False)

3

ответ дан gps 19 August 2018 в 02:46

Другие вопросы по тегам:

python pandas pyspark pyspark-sql

PySpark группируется по 2 столбцам, чтобы получить первое число за группу [duplicate]

2 ответа

Похожие вопросы: