20
ответов

Ошибка записи данных в формате PySpark (данные MovieLens) [дубликат]

Я только начал изучать Spark и Python и застрял. Я тестировал воды с набором данных MovieLens 1M, но застрял в соединении с dataframe и не мог понять, в чем проблема. Кажется ...
вопрос задан: 22 March 2016 14:59
19
ответов

Ошибка при добавлении искровой зависимости mlib [duplicate]

Привет, я пытаюсь добавить зависимость искры mllib в моем проекте maven следующим образом: & lt; dependency & gt; & Lt; идентификатор_группа & GT; org.apache.spark & ​​л; / идентификатор_группа & GT; & Lt; артефакт & GT; искровой mllib_2.10 & л; / ...
вопрос задан: 18 November 2012 15:44
18
ответов

Graphx java.lang.ArrayIndexOutOfBoundsException: 2 [дублировать]

Я создал несколько графиков на Graphx и при создании последнего графика, который я запускаю в этой ошибке выполнения. Я попытался распечатать длину строки, которую я читаю, чтобы увидеть, является ли это ...
вопрос задан: 20 October 2014 10:13
12
ответов

Получение исключения NullPointerException, когда я запускаю искровую работу в режиме пряжи [дубликат]

java.lang.NullPointerException в org.apache.spark.sql.SparkSession.sessionState $ lzycompute (SparkSession.scala: 128) в org.apache.spark.sql.SparkSession.sessionState (SparkSession.scala: ...
вопрос задан: 26 May 2016 16:15
12
ответов

Обновление версии python в pyspark [duplicate]

Я изучаю pyspark на Ubuntu 16.04. моя искробезопасная версия 2.2.1, а версия python (в искры) - 2.7.2. Я хочу обновить версию python в искровом режиме до 3.5. Как я могу это сделать?
вопрос задан: 28 May 2015 22:52
12
ответов

Загрузить CSV-файл как RDD в scala / spark? [Дубликат]

У меня есть большой файл csv объемом 6 ГБ с 1-й строкой в ​​качестве заголовков. Как я могу прочитать этот файл из HDFS и выполнить предварительную обработку данных (синтаксический анализ, фильтрация и т. Д.)?
вопрос задан: 5 May 2015 15:24
12
ответов

По умолчанию, в котором файловая система искроет поиск файла чтения? [Дубликат]

Я пытаюсь запустить искру в автономном режиме на CentOs и пытаюсь прочитать текстовый файл из локальной файловой системы, используя scala & gt; var text = sc.textFile ("/ home / Documents / test.txt"), но он дает ...
вопрос задан: 11 December 2014 06:15
12
ответов

как мы можем читать локальные файлы в иске, используя pyspark или scala? [Дубликат]

В pyspark или scala, как мы можем читать файл из локальной системы. По умолчанию он принимает путь HDFS. Есть ли настройка, в которой мы можем настроить расположение файлов?
вопрос задан: 11 December 2014 06:15
11
ответов

Как читать данные с S3, используя Sparklyr в R (в EC2)? [Дубликат]

Я попробовал почти 100 кодов, доступных в Github / Stackoverflow, чтобы достичь своей цели, но все напрасно .... Итак, вот код, который я пытался получить для S3-файлов данных из Sparklyr в RStudio ...
вопрос задан: 30 November 2016 10:27
11
ответов

Не содержит & lt; & gt; работа над нулевым значением [дубликат]

У меня есть следующий код: test («& lt; gt; on null values») {val spark = SparkSession.builder (). EnableHiveSupport (). Master ("local"). AppName ("& lt; gt; on null values"). .getOrCreate () import spark ....
вопрос задан: 9 October 2014 13:24
10
ответов

Как конкат строки String в столбце Dataframe в искрах? [Дубликат]

У меня есть dataframe: precisionCols, с одним столбцом. val spColsDF = spark.read.format ("jdbc"). option ("url", hiveMetaConURL) .option ("dbtable", "(выберите ...
вопрос задан: 17 June 2018 10:01
10
ответов

Как добавить значения префикса и суффикса для столбца в искровом фрейме с использованием scala [duplicate]

Входной dataframe val ds = Seq ((1, «Play Framework»), (2, «Искра»), (3, «Spring framework»)). ToDF («is», «subject») Предположим, что мое значение префикса префикс и суффикс - это суффикс. Тогда я ожидаю ...
вопрос задан: 17 June 2018 10:01
10
ответов

Как разбить большой текст на более мелкие файлы на основе столбца id, используя pyspark [duplicate]

У меня есть коллекция TSV-файлов на хранилище Azure blob, которые мне нужно разбить на основе идентификатора записи. например формат записи: | ID | имя | адрес | | - | ---- | ---------- | | 34 | Стивен | Дом | Я ...
вопрос задан: 22 February 2018 11:56
10
ответов

Автоматически и элегантно сглаживает DataFrame в Spark SQL

Все, есть ли элегантный и приемлемый способ выравнивания таблицы Spark SQL (Parquet) со столбцами, которые имеют вложенный StructType Например, если моя схема: foo | _bar | _baz x y z Как мне выбрать ее ...
вопрос задан: 26 May 2016 21:30
10
ответов

раскол по запятой искра RDD [дубликат]

У меня есть файл csv, и я хотел бы открыть его с помощью искры RDD 111, rock, sf, «недавно, продвигался». Я разделил его на vals = line.split (','), но это также будет разделено. «В последнее время, способствовали». Я хочу сохранить «...
вопрос задан: 28 February 2015 15:41
10
ответов

Ненужный 'еще' оператор [дубликат]

Как Вы знаете в Eclipse, 'еще' можно включить "Ненужный оператор" проверка, которая включит if-then-else с преждевременным возвратом. И на основе моего опыта существует две самых возможных ситуации...
вопрос задан: 21 April 2010 12:31
9
ответов

Замена groupBykey () с помощью reduceByKey () [duplicate]

Я пытаюсь заменить groupByKey () на reudceByKey (), я новичок pyspark и python, и мне сложно определить функцию лямбда для операции reduceByKey (). Вот код ...
вопрос задан: 17 August 2017 10:00
9
ответов

Не удалось загрузить модель pyspark.ml с помощью python-api-клиента livy и оболочки pysaprk [duplicate]

Я пытаюсь загрузить модель pyspark.ml с помощью python-api-клиента livy (https://github.com/cloudera/livy/tree/master/python-api) со следующей функцией: def load_model (context): from pyspark ....
вопрос задан: 25 December 2015 19:56
9
ответов

Как проверить, свободен ли световой кадр в pyspark [duplicate]

Прямо сейчас, я должен использовать df.count> 0, чтобы проверить, является ли кадр данных пустым или нет. Но это неэффективно. Есть ли лучший способ сделать это. Благодарю. PS: Я хочу проверить, пусто ли это, чтобы ...
вопрос задан: 22 September 2015 02:52
8
ответов

Ни одно подходящее исключение драйвера не работает во время работы над программой Spark-JDBC [дубликат]

Я пытаюсь прочитать таблицу, которая присутствует в postgres db, используя spark-jdbc. Для этого я придумал следующий код: object PartitionRetrieval {var conf = new SparkConf (). SetAppName ("...
вопрос задан: 29 August 2017 10:09
8
ответов

Apache Spark: тестовый набор данных isEmpty? [Дубликат]

Я новичок в Spark Java API. Я хочу знать, что является лучшим способом проверить, не является ли набор данных пустым? Я попробовал это. if (ds! = null & amp;! ds.takeAsList (1) .isEmpty ()) Кажется, для этого требуется время. Является ...
вопрос задан: 22 September 2015 02:52
8
ответов

Как проверить наличие пустых данных Условие в искровом наборе данных в JAVA [дубликат]

Я пытаюсь выполнить проверку набора данных результата в иске, является ли он пустым или имеет данные. Я сделал следующее ниже. . Dataset.rdd () IsEmpty (); 2. Попробуйте {dataset.head (1)} ...
вопрос задан: 22 September 2015 02:52
8
ответов

Spark - хочу проверить пустой фрейм данных - isEmpty vs count [duplicate]

Эксперты. Лучший способ проверить пустой фрейм. Java Spark 1.6, Linux! Df.rdd.isEmpty () или df.count ()> 0
вопрос задан: 22 September 2015 02:52
8
ответов

Как написать некоторый val как файл JSON на S3 с опцией перезаписи? [Дубликат]

Я пишу некоторый val как файл JSON в ведро AWS S3, например: foo.repartition (1) .write.json ("s3: //some_path/foo.json") Это работает отлично, пока файл не существует все же. В этом случае я получаю ...
вопрос задан: 20 November 2014 11:01
8
ответов

Искра: разница с использованием map () и map {} [duplicate]

При программировании с помощью Spark в Scala я вижу две альтернативы: rdd.map (x = & gt; (x (5), 1)) и rdd.map {x = & gt; (x (0), Set (x (1)))} В чем разница между использованием () и {}?
вопрос задан: 1 May 2013 21:41
7
ответов

Как выводить больше коррелированных столбцов, которые не входят в столбцы groupBy и aggregation [duplicate]

Я новичок в Spark, и я столкнулся с этой простой проблемой. У меня есть dataframe, как это: scala & gt; testDF.show + ------- + --- + ----- + | страна | ID | цена | + ------- + --- + ----- + | США | 1 | 100 | | США | 2 | ...
вопрос задан: 26 December 2017 01:35
7
ответов

pyspark.sql.utils.IllegalArgumentException: u «Ошибка при создании экземпляра при чтении csv [duplicate]

Я пытаюсь читать csv-файл из S3, используя переменную url & gt; & gt; & gt; & gt; m = spark.read.csv (url, header = "true", sep = ",") Но я получаю сообщение об ошибке, как показано ниже. Traceback (последний последний звонок): ...
вопрос задан: 22 March 2017 05:11
7
ответов

Spark Job Ошибка после запуска [дубликат]

У меня есть искровое задание со следующей конфигурацией: Конфигурации = [{"Классификация": "Искра-по умолчанию", "Свойства": {"Искра ....
вопрос задан: 25 November 2015 11:14
7
ответов

py4j.protocol.Py4JJavaError: Произошла ошибка при вызове o243.trainRandomForestModel. : java.lang.OutOfMemoryError: пространство кучи Java [дубликат]

Я использую случайный лесной mllib pyspark в наборе данных HIGGS (который включает 11000000 экземпляров). Я хочу обучить 100 деревьев с 5 для глубины для каждого дерева. Кроме того, я создаю искру в автономном режиме с 4 узлами (...
вопрос задан: 25 November 2015 11:14
7
ответов

Определить равный в scala [duplicate]

У меня есть столбец в scala dataframe, это тип, это строка, я хочу сделать фильтр в этом столбце, чтобы взять все строки, которые не содержат строку CSS. Я сделал эту функцию def FiltragePerAIG (dfEntree: org ....
вопрос задан: 9 July 2015 17:43