PySpark группируется по 2 столбцам, чтобы получить первое число за группу [duplicate]

Другое событие NullPointerException возникает, когда объявляется массив объектов, а затем сразу же пытается разыменовать его внутри.

String[] phrases = new String[10];
String keyPhrase = "Bird";
for(String phrase : phrases) {
    System.out.println(phrase.equals(keyPhrase));
}

Этот конкретный NPE можно избежать, если порядок сравнения отменяется ; а именно, использовать .equals для гарантированного непустого объекта.

Все элементы внутри массива инициализируются их общим начальным значением ; для любого типа массива объектов, это означает, что все элементы null.

Вы должны инициализировать элементы в массиве перед доступом или разыменованием их.

String[] phrases = new String[] {"The bird", "A bird", "My bird", "Bird"};
String keyPhrase = "Bird";
for(String phrase : phrases) {
    System.out.println(phrase.equals(keyPhrase));
}

5
задан Jared 26 June 2015 в 03:08
поделиться

2 ответа

Это не проблема импорта. Вы просто вызываете .dropDuplicates() на неправильном объекте. Хотя класс sqlContext.createDataFrame(rdd1, ...) равен pyspark.sql.dataframe.DataFrame, после применения .collect() это простой Python list, а списки не предоставляют метод dropDuplicates. Вы хотите что-то вроде этого:

 (df1 = sqlContext
     .createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4'])
     .dropDuplicates())

 df1.collect()
9
ответ дан zero323 19 August 2018 в 02:46
поделиться

, если у вас есть фрейм данных и вы хотите удалить все дубликаты - со ссылкой на дубликаты в определенном столбце (называемое «colName»):

подсчитать перед дедушкой:

df.count()

выполните де-dupe (конвертируйте колонку, которую вы обнуляете в тип строки):

from pyspark.sql.functions import col
df = df.withColumn('colName',col('colName').cast('string'))

df.drop_duplicates(subset=['colName']).count()

может использовать отсортированную группу, чтобы проверить, удалены ли дубликаты:

df.groupBy('colName').count().toPandas().set_index("count").sort_index(ascending=False)
3
ответ дан gps 19 August 2018 в 02:46
поделиться
Другие вопросы по тегам:

Похожие вопросы: