Объединить условие во фреймах данных со списком в качестве записей

Разница в стиле. <editor-fold..> обеспечивает стиль складчатости NetBeans, а region..endregion обеспечивает стиль складывания VisualStudio.

Примечание:

Вы можете выбрать только один стиль для определенного файла. Смешивание не должно выполняться.

2
задан Sreekiran 20 January 2019 в 11:03
поделиться

1 ответ

Что насчет подхода ниже?

Соедините оба фрейма данных перекрестно, добавьте столбец с функцией array_intersect , а затем отфильтруйте ваш объединенный набор данных, имеющий размер пересеченного результирующего столбца> 0. [113 ]

Например:

df1 = spark.read  # ... Read your first source
df2 = spark.read  # ... Read your other source

from pyspark.sql import functions as fn

joined = df1.crossJoin(df2). \
    withColumn("common_join_keys", fn.array_intersect(fn.col("joinkey1"), fn.col("joinkey2")))

result = joined.filter(fn.size(fn.col("common_join_keys")) > 0)  # your condition

result.show(truncate=False)
0
ответ дан skadya 20 January 2019 в 11:03
поделиться
Другие вопросы по тегам:

Похожие вопросы: