Теперь есть еще один вариант для любого общего файла csv: https://github.com/seahboonsiew/pyspark-csv следующим образом:
Предположим, что мы имеем следующее context
sc = SparkContext
sqlCtx = SQLContext or HiveContext
Сначала распределите pyspark-csv.py исполнителям, использующим SparkContext
import pyspark_csv as pycsv
sc.addPyFile('pyspark_csv.py')
Чтение данных csv через SparkContext и преобразование его в DataFrame
plaintext_rdd = sc.textFile('hdfs://x.x.x.x/blah.csv')
dataframe = pycsv.csvToDataFrame(sqlCtx, plaintext_rdd)