чтение файла в hdfs из pyspark

Я пытаюсь прочитать файл в моих hdfs. Вот пример моей файловой структуры hadoop.

hduser@GVM:/usr/local/spark/bin$ hadoop fs -ls -R /
drwxr-xr-x   - hduser supergroup          0 2016-03-06 17:28 /inputFiles
drwxr-xr-x   - hduser supergroup          0 2016-03-06 17:31 /inputFiles/CountOfMonteCristo
-rw-r--r--   1 hduser supergroup    2685300 2016-03-06 17:31 /inputFiles/CountOfMonteCristo/BookText.txt

Вот мой код pyspark:

from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("myFirstApp").setMaster("local")
sc = SparkContext(conf=conf)

textFile = sc.textFile("hdfs://inputFiles/CountOfMonteCristo/BookText.txt")
textFile.first()

Я получаю ошибку:

Py4JJavaError: An error occurred while calling o64.partitions.
: java.lang.IllegalArgumentException: java.net.UnknownHostException: inputFiles

Это потому, что я неправильно установил свой sparkContext? Я запускаю это в виртуальной машине Ubuntu 14.04 через виртуальную коробку.

Я не уверен, что я делаю здесь неправильно ...

9
задан user1357015 7 March 2016 в 03:22
поделиться