Ошибка: каталог журналов не существует / var / mobile / Библиотека / Журналы / CrashReporter / DiagnosticLog /

Теперь есть еще один вариант для любого общего файла csv: https://github.com/seahboonsiew/pyspark-csv следующим образом:

Предположим, что мы имеем следующее context

sc = SparkContext
sqlCtx = SQLContext or HiveContext

Сначала распределите pyspark-csv.py исполнителям, использующим SparkContext

import pyspark_csv as pycsv
sc.addPyFile('pyspark_csv.py')

Чтение данных csv через SparkContext и преобразование его в DataFrame

plaintext_rdd = sc.textFile('hdfs://x.x.x.x/blah.csv')
dataframe = pycsv.csvToDataFrame(sqlCtx, plaintext_rdd)

41
задан jww 21 December 2014 в 21:37
поделиться