Это не проблема импорта. Вы просто вызываете .dropDuplicates()
на неправильном объекте. Хотя класс sqlContext.createDataFrame(rdd1, ...)
равен pyspark.sql.dataframe.DataFrame
, после применения .collect()
это простой Python list
, а списки не предоставляют метод dropDuplicates
. Вы хотите что-то вроде этого:
(df1 = sqlContext
.createDataFrame(rdd1, ['column1', 'column2', 'column3', 'column4'])
.dropDuplicates())
df1.collect()