Spark 2.0 +:
SPARK-10605 введена реализация нативного collect_list
и collect_set
. SparkSession
с поддержкой Hive или HiveContext
больше не требуются.
Spark 2.0-SNAPSHOT (до 2016-05-03) :
Вы должны включить поддержку Hive для данного SparkSession
:
В Scala:
val spark = SparkSession.builder
.master("local")
.appName("testing")
.enableHiveSupport() // <- enable Hive support.
.getOrCreate()
В Python:
spark = (SparkSession.builder
.enableHiveSupport()
.getOrCreate())
Spark & lt; 2.0:
Чтобы использовать UDF для Hive (см. https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF ), вы используете Spark built с поддержкой Hive (это уже рассматривается, когда вы используете предварительно созданные двоичные файлы, что, как представляется, здесь) и инициализировать SparkContext
с помощью HiveContext
.
В Scala:
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.SQLContext
val sqlContext: SQLContext = new HiveContext(sc)
В Python:
from pyspark.sql import HiveContext
sqlContext = HiveContext(sc)
DotNetCoders имеет статью начинающего о нем: http://www.dotnetcoders.com/web/Articles/ShowArticle.aspx?article=50, они говорят о том, как настроить переключатели в файле конфигурации и как написать код, но это довольно старо (2002). Существует другая статья о CodeProject: http://www.codeproject.com/KB/trace/debugtreatise.aspx, но это одного возраста. CodeGuru имеет другую статью о пользовательском TraceListeners: http://www.codeguru.com/columns/vb/article.php/c5611
Я не могу больше думать о недавних статьях, надо надеяться, у кого-то еще здесь будет что-то
Я написал небольшую статью об использовании Trace Listener - возможно, это поможет, особенно для начинающих - http://www.daveoncsharp.com/2009/09/ create-a-logger-using-the-trace-listener-in-csharp /