Другое событие NullPointerException
возникает, когда объявляется массив объектов, а затем сразу же пытается разыменовать его внутри.
String[] phrases = new String[10];
String keyPhrase = "Bird";
for(String phrase : phrases) {
System.out.println(phrase.equals(keyPhrase));
}
Этот конкретный NPE можно избежать, если порядок сравнения отменяется ; а именно, использовать .equals
для гарантированного непустого объекта.
Все элементы внутри массива инициализируются их общим начальным значением ; для любого типа массива объектов, это означает, что все элементы null
.
Вы должны инициализировать элементы в массиве перед доступом или разыменованием их.
String[] phrases = new String[] {"The bird", "A bird", "My bird", "Bird"};
String keyPhrase = "Bird";
for(String phrase : phrases) {
System.out.println(phrase.equals(keyPhrase));
}
Это не проблема импорта. Вы просто вызываете .dropDuplicates()
на неправильном объекте. Хотя класс sqlContext.createDataFrame(rdd1, ...)
равен pyspark.sql.dataframe.DataFrame
, после применения .collect()
это простой Python list
, а списки не предоставляют метод dropDuplicates
. Вы хотите что-то вроде этого:
(df1 = sqlContext
.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4'])
.dropDuplicates())
df1.collect()
, если у вас есть фрейм данных и вы хотите удалить все дубликаты - со ссылкой на дубликаты в определенном столбце (называемое «colName»):
подсчитать перед дедушкой:
df.count()
выполните де-dupe (конвертируйте колонку, которую вы обнуляете в тип строки):
from pyspark.sql.functions import col
df = df.withColumn('colName',col('colName').cast('string'))
df.drop_duplicates(subset=['colName']).count()
может использовать отсортированную группу, чтобы проверить, удалены ли дубликаты:
df.groupBy('colName').count().toPandas().set_index("count").sort_index(ascending=False)