Как сделать так, чтобы на графике плотности правильно отображалась область вблизи границ?

У меня была та же проблема. Некоторые из ответов sudo chmod -R 777 /tmp/hive/, или для того, чтобы понизить искру с hadoop до 2.6, не сработали для меня. Я понял, что причиной этой проблемы для меня является то, что я выполнял SQL-запросы, используя sqlContext, вместо использования sparkSession.

sparkSession =SparkSession.builder.master("local[*]").appName("appName").config("spark.sql.warehouse.dir", "./spark-warehouse").getOrCreate()
sqlCtx.registerDataFrameAsTable(..)
df = sparkSession.sql("SELECT ...")

это отлично работает для меня сейчас.

2
задан Wassinger 10 April 2019 в 23:11
поделиться

1 ответ

Обычные методы плотности ядра имеют проблемы, когда существует ограничение, такое как в этом случае для плотности с поддержкой только выше нуля. Обычной рекомендацией для обработки этого было использование пакета logspline:

install.packages("logspline")
library(logspline)
png(); fit <- logspline(rchisq(10000, 3))       
plot(fit) ; dev.off()

enter image description here

Если это необходимо сделать в ggplot2 В среде есть функция сплайнов:

densdf <- data.frame( y=dlogspline(seq(0,12,length=1000), fit), 
                      x=seq(0,12,length=1000))

ggplot(densdf, aes(y=y,x=x))+geom_line()

Возможно, вы настаивали на одном с двумя степенями свободы?

0
ответ дан 42- 10 April 2019 в 23:11
поделиться
Другие вопросы по тегам:

Похожие вопросы: