Не удалось выполнить определенную пользователем функцию ($ anonfun $ createTransformFunc $ 1: (string) = & gt; array & lt; string & gt; [duplicate]

Вот взломать с помощью pointer-events с hover:

<!doctype html>
<html>
	<head>
		<title></title>
		<style>
/* accessory */
.parent {
	width: 200px;
	height: 200px;
	background: gray;
}
.parent, 
.selector {
	display: flex;
	justify-content: center;
	align-items: center;
}
.selector {
	cursor: pointer;
	background: silver;
	width: 50%;
	height: 50%;
}
		</style>
		<style>
/* pertinent */
.parent {
	background: gray;
	pointer-events: none;
}
.parent:hover {
	background: fuchsia;
}
.parent 
.selector {
	pointer-events: auto;
}
		</style>
	</head>
	<body>
		<div class="parent">
			<div class="selector"></div>
		</div>
	</body>
</html>

1
задан Nick Lothian 1 November 2016 в 01:51
поделиться

2 ответа

Лично я бы отбросил столбцы с NULL значениями, потому что там нет полезной информации, но вы можете заменить нули пустыми массивами. Сначала некоторые импорта:

from pyspark.sql.functions import when, col, coalesce, array

Вы можете определить пустой массив определенного типа как:

fill = array().cast("array<string>")

и объединить его с предложением when:

topics_a = when(col("topics_A").isNull(), fill).otherwise(col("topics_A"))

или coalesce:

topics_a = coalesce(col("topics_A"), fill)

и использовать его как:

df.withColumn("topics_A", topics_a)

, поэтому с примерами данных:

df = sc.parallelize([(1, ["a", "b"]), (2, None)]).toDF(["id", "topics_A"])

df_ = df.withColumn("topics_A", topics_a)
topic_vectorizer_A.fit(df_).transform(df_)

результатом будет:

+---+--------+-------------------+
| id|topics_A|       topics_vec_A|
+---+--------+-------------------+
|  1|  [a, b]|(2,[0,1],[1.0,1.0])|
|  2|      []|          (2,[],[])|
+---+--------+-------------------+
2
ответ дан user6910411 19 August 2018 в 00:37
поделиться

У меня была аналогичная проблема , основанная на комментарии, я использовал следующий синтаксис для решения перед токенизацией:

удалить нулевые значения

clean_text_ddf.where(col("title").isNull()).show()
cleaned_text=clean_text_ddf.na.drop(subset=["title"])
cleaned_text.where(col("title").isNull()).show()
cleaned_text.printSchema()
cleaned_text.show(2)

+-----+
|title|
+-----+
+-----+

+-----+
|title|
+-----+
+-----+

root
 |-- title: string (nullable = true)

+--------------------+
|               title|
+--------------------+
|Mr. Beautiful (Up...|
|House of Ravens (...|
+--------------------+
only showing top 2 rows
0
ответ дан lpt 19 August 2018 в 00:37
поделиться
Другие вопросы по тегам:

Похожие вопросы: