В Java все переменные, которые вы объявляете, на самом деле являются «ссылками» на объекты (или примитивы), а не самими объектами.
При попытке выполнить один метод объекта , ссылка просит живой объект выполнить этот метод. Но если ссылка ссылается на NULL (ничего, нуль, void, nada), то нет способа, которым метод будет выполнен. Тогда runtime сообщит вам об этом, выбросив исключение NullPointerException.
Ваша ссылка «указывает» на нуль, таким образом, «Null -> Pointer».
Объект живет в памяти виртуальной машины пространство и единственный способ доступа к нему - использовать ссылки this
. Возьмем этот пример:
public class Some {
private int id;
public int getId(){
return this.id;
}
public setId( int newId ) {
this.id = newId;
}
}
И в другом месте вашего кода:
Some reference = new Some(); // Point to a new object of type Some()
Some otherReference = null; // Initiallly this points to NULL
reference.setId( 1 ); // Execute setId method, now private var id is 1
System.out.println( reference.getId() ); // Prints 1 to the console
otherReference = reference // Now they both point to the only object.
reference = null; // "reference" now point to null.
// But "otherReference" still point to the "real" object so this print 1 too...
System.out.println( otherReference.getId() );
// Guess what will happen
System.out.println( reference.getId() ); // :S Throws NullPointerException because "reference" is pointing to NULL remember...
Это важно знать - когда больше нет ссылок на объект (в пример выше, когда reference
и otherReference
оба указывают на null), тогда объект «недоступен». Мы не можем работать с ним, поэтому этот объект готов к сбору мусора, и в какой-то момент VM освободит память, используемую этим объектом, и выделит другую.
Попробуйте явно указать sc.textFile("file:///path to the file/")
. Ошибка возникает при настройке среды Hadoop.
SparkContext.textFile внутренне вызывает org.apache.hadoop.mapred.FileInputFormat.getSplits
, который, в свою очередь, использует org.apache.hadoop.fs.getDefaultUri
, если схема отсутствует. Этот метод считывает параметр fs.defaultFS в Hadoop conf. Если вы задаете переменную среды HADOOP_CONF_DIR, параметр обычно устанавливается как «hdfs: // ...»; иначе "file: //".
Хотя Spark поддерживает загрузку файлов из локальной файловой системы, для этого требуется, чтобы файлы были доступны по одному пути на всех узлах вашего кластера.
Некоторые сетевые файловые системы, такие как NFS, AFS и NFS-уровень MapR, отображаются пользователю как обычная файловая система.
Если ваши данные уже находятся в одной из этих систем, вы можете использовать их в качестве ввода, просто указав путь : // ; Spark будет обрабатывать его, пока файловая система монтируется по одному пути на каждом узле. Каждый узел должен иметь один и тот же путь
rdd = sc.textFile("file:///path/to/file")
Если ваш файл еще не на всех узлах кластера, вы можете загрузить его локально в драйвере без прохождения Spark, а затем вызвать распараллеливание для распространения содержимое для рабочих
Постарайтесь поместить файл: // спереди и использование «/» или «\» в соответствии с ОС.
Это случилось со мной с Spark 2.3 с Hadoop, также установленным под общим домашним каталогом пользователя «hadoop». Поскольку оба Spark и Hadoop были установлены под одним и тем же общим каталогом, Spark по умолчанию рассматривает схему как hdfs
и начинает поиск входных файлов в hdfs, как указано в fs.defaultFS
в Hadoop core-site.xml
. В таких случаях нам нужно явно указать схему как file:///<absoloute path to file>
.
У меня есть файл под названием NewsArticle.txt на моем рабочем столе.
В Spark я набрал:
val textFile= sc.textFile(“file:///C:/Users/582767/Desktop/NewsArticle.txt”)
Мне нужно было изменить все символы \ to / для пути к файлу.
Чтобы проверить, работает ли это, я набрал:
textFile.foreach(println)
Я запускаю Windows 7, и у меня нет Hadoop.
Если файл находится в главном узле Spark (например, в случае использования AWS EMR), сначала запустите искровую оболочку в локальном режиме.
$ spark-shell --master=local
scala> val df = spark.read.json("file:///usr/lib/spark/examples/src/main/resources/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
scala> df.show()
+----+-------+
| age| name|
+----+-------+
|null|Michael|
| 30| Andy|
| 19| Justin|
+----+-------+
В качестве альтернативы вы можете сначала скопируйте файл в HDFS из локальной файловой системы и затем запустите Spark в режиме по умолчанию (например, YARN в случае использования AWS EMR), чтобы прочитать файл напрямую.
$ hdfs dfs -mkdir -p /hdfs/spark/examples
$ hadoop fs -put /usr/lib/spark/examples/src/main/resources/people.json /hdfs/spark/examples
$ hadoop fs -ls /hdfs/spark/examples
Found 1 items
-rw-r--r-- 1 hadoop hadoop 73 2017-05-01 00:49 /hdfs/spark/examples/people.json
$ spark-shell
scala> val df = spark.read.json("/hdfs/spark/examples/people.json")
df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]
scala> df.show()
+----+-------+
| age| name|
+----+-------+
|null|Michael|
| 30| Andy|
| 19| Justin|
+----+-------+
Внимание:
Убедитесь, что вы запускаете искру в локальном режиме, когда вы загружаете данные из локального (sc.textFile("file:///path to the file/")
), или вы получите ошибку, подобную этой Caused by: java.io.FileNotFoundException: File file:/data/sparkjob/config2.properties does not exist
. Исполнители Becasuse, которые работают на разных рабочих, не найдут этот файл в локальном пути.
Это решение этой ошибки, которое я получал в Spark-кластере, который размещен в Azure в кластере Windows:
Загрузите необработанный файл HVAC.csv, проанализируйте его с помощью функции
data = sc.textFile("wasb:///HdiSamples/SensorSampleData/hvac/HVAC.csv")
Мы используем (wasb: ///), чтобы позволить Hadoop получить доступ к файлу архива блога в блоге, а три слэша - относительная ссылка на папку контейнера запущенного узла.
Например: Если путь к файлу в Проводнике в панели инструментов Spark-кластера:
sflcc1 \ sflccspark1 \ HdiSamples \ SensorSampleData \ hvac
Итак, чтобы описать путь, выполните следующие действия: sflcc1: is имя учетной записи хранилища. sflccspark: имя узла кластера.
Таким образом, мы ссылаемся на текущее имя узла кластера с относительными тремя слэшами.
Надеемся, что это поможет.
Это обсуждалось в списке рассылок, и, пожалуйста, обратитесь к этой mail .
Вы должны использовать hadoop fs -put <localsrc> ... <dst>
скопировать файл в hdfs
:
${HADOOP_COMMON_HOME}/bin/hadoop fs -put /path/to/README.md README.md
Вам нужно просто указать путь к файлу как "file: /// directory / file"
example:
val textFile = sc.textFile("file:///usr/local/spark/README.md")
try
val f = sc.textFile("./README.md")
scala> val f = sc.textFile("./README.md") 14/12/04 12:54:33 INFO storage.MemoryStore: ensureFreeSpace(81443) called with curMem=164073, maxMem=278302556 14/12/04 12:54:33 INFO storage.MemoryStore: Block broadcast_1 stored as values in memory (estimated size 79.5 KB, free 265.2 MB) f: org.apache.spark.rdd.RDD[String] = ./README.md MappedRDD[5] at textFile at <console>:12 scala> val wc = f.flatMap(l => l.split(" ")).map(word => (word, 1)).reduceByKey(_ + _) org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://sandbox:9000/user/root/README.md at
– Jas
4 December 2014 в 18:55
Если вы пытаетесь прочитать файл формы HDFS. попытка установки пути в SparkConf
val conf = new SparkConf().setMaster("local[*]").setAppName("HDFSFileReader")
conf.set("fs.defaultFS", "hdfs://hostname:9000")
Ответ gonbe превосходный. Но все же хочу упомянуть, что file:///
= ~/../../
, а не $SPARK_HOME
. Надеюсь, это может сэкономить время для таких новых блогов, как я.
file:///
- это корневая папка файловой системы, которую видит исполняющая JVM, а не два уровня над домашней папкой. Формат URI, указанный в RFC 8089 , равен file://hostname/absolute/path
. В локальном случае компонент hostname
(полномочия) пуст.
– Hristo Iliev
16 June 2018 в 14:31