1
ответ

Есть ли общий способ прочитать многострочный JSON в искре. Точнее искра?

У меня есть многострочный json, такой как {"_id": {"$ oid": "50b59cd75bed76f46522c34e"}, "student_id": 0, "class_id": 2, "Scores": [{"type": "exam", "score": 57.92947112575566}, {"type": "...
вопрос задан: 16 January 2019 05:54
1
ответ

Пробовал импортировать Java 8 JDK для PySpark, но PySpark все еще не позволяет мне начать сеанс

Хорошо, вот моя основная информация, прежде чем я продолжу: MacBook Pro: OS X 10.14.2 Python Версия: 3.6.7 Java JDK: V8.u201 Я пытаюсь установить Apache Spark Python API (PySpark) на мой компьютер. Я сделал ...
вопрос задан: 15 January 2019 20:47
1
ответ

Конфигурация Redis и Pyspark

У нас есть одна тестовая виртуальная машина EC2 с spark master и 3 работника spark, какие настройки нужно сделать, чтобы Redis работал с PySpark? Благодарю.
вопрос задан: 15 January 2019 18:01
1
ответ

Как отобразить / визуализировать график, созданный GraphFrame?

Я создал график с помощью GraphFrame (g = GraphFrame (вершины, ребра)). Помимо анализа графика с использованием запросов и свойств, предлагаемых GraphFrame, я хотел бы визуализировать ...
вопрос задан: 15 January 2019 17:32
1
ответ

Проверка свойств JVM в PySpark с помощью блоков данных Azure

Я получаю java.lang.OutOfMemoryError при запуске PySpark с использованием блоков данных Azure. Я хотел проверить некоторые свойства JVM, такие как 32/64 бит и текущая память исполнителя драйвера ...
вопрос задан: 15 January 2019 15:27
1
ответ

Apache Spark - назначить результат UDF нескольким столбцам данных

Я использую pyspark, загружая большой файл csv в фрейм данных с помощью spark-csv, и в качестве шага предварительной обработки мне нужно применить различные операции к данным, доступным в одном из столбцов (что ...
вопрос задан: 6 January 2019 08:56
1
ответ

Вложенные массивы pyspark взрываются

У меня есть кадр данных следующим образом: df = spark.createDataFrame ([(1, "2017-12-03", "" "{" 1 ": [{" john ": [12443,12441]," james ": [14380,14379,13463], "Майк": [...
вопрос задан: 13 July 2018 20:47
1
ответ

json file schema / object для запуска схемы для загрузки данных

Мне нужно загружать много файлов в таблицы с помощью pySpark. Существует несколько разных json-файлов, содержащих данные и отдельные файлы, в которых определены схемы данных файлов. При загрузке файлов без ...
вопрос задан: 13 July 2018 16:37
1
ответ

pyspark добавляет очень большие множественные числовые кадры после каждого процесса в цикле for (например: добавляет после ежедневного ETL)

Я должен делать ETL для каждого дня, а затем добавлять его к одному файлу данных. Например: после каждого дня ETL следуют выходы .. df1: id category количество дата 1 abc 100 01-07-18 2 ...
вопрос задан: 13 July 2018 12:12
1
ответ

Pyspark сохраняет только отчетливые (удалять все дубликаты)

После присоединения к двум файлам данных (которые имеют свои собственные идентификаторы) у меня есть некоторые дубликаты (повторные идентификаторы из обоих источников), я хочу удалить все строки, которые являются дубликатами на любом ID (поэтому не сохран
вопрос задан: 13 July 2018 10:07
1
ответ

Как фильтр по дате (между двумя датами) с двумя столбцами в моем фрейме данных в pyspark

Я хочу отфильтровать мой df между двумя столбцами даты, например: + ------ + ---------- + ---------- + | код | Date1 | Дата2 | + ------ + ---------- + ---------- + | 10 | 2018-06-01 | 2018-06-05 | | 15 | 2018-06 -...
вопрос задан: 13 July 2018 09:10
1
ответ

rdd.countApprox занимает до тех пор, пока count () [duplicate]

Мой код выглядит как foo.rdd.countApprox (1000, 0.9) = & gt; занимает 7,1 минуты. foo.count () = & gt; занимает 7,1 минуты. Есть ли что-нибудь, что мне не хватает? foo - это df, и я стараюсь сократить время, которое требуется ...
вопрос задан: 9 July 2018 18:24
1
ответ

Как & lt; MyDataFrame & gt; GroupBy (& ldquo; Fields & rdquo;). Применить (Fn)? [Дубликат]

Мне нужно написать пользовательскую функцию GroupBy.Apply () для pyspark. Поэтому я сказал: Представляем Pandas UDF для PySpark. Как я уже сказал, я попытался - @pandas_udf (& lt; mydf & gt; .schema, PandasUDFType.GROUPED_MAP) ...
вопрос задан: 28 June 2018 13:44
1
ответ

Py4JJavaError | java.lang.IllegalArgumentException | Исправлена ​​ошибка Jupyter | Count () не работает [дубликат]

У меня версия Java версии java «10.0.2» 2018-07-17 Java (TM) SE Runtime Environment 18.3 (build 10.0.2 + 13) Java HotSpot (TM) 64-разрядный сервер VM 18.3 (сборка 10.0.2 + 13 , смешанный режим) Spark и Hadoop ...
вопрос задан: 22 April 2018 02:35
1
ответ

Pyspark: Исключения с простейшим примером структурированного потока [дубликат]

В начале руководства по структурированному потоковому потоку есть пример потокового примера World Count. Во-первых, мы выполняем nc -lk 8888 в отдельном терминале. Далее, следуя руководству Python ...
вопрос задан: 22 April 2018 02:35
1
ответ

Как исправить count () быстрее для огромных кадров данных? [Дубликат]

У меня есть оператор конвейера данных, используемый для сбора показателей данных. Продукт данных, для которого я собираю метрики, называется foo. У меня есть следующий `foo.select (foo.id) .count ()` = & gt; 2M + `foo ....
вопрос задан: 5 January 2018 17:06
1
ответ

Pivoting / Reshaping Dataframe в Pyspark Динамически [дублировать]

У меня есть результат dataframe, как ниже, который я получил из описания + ------- + ------------------ + --------- --------- + ------------------ + | резюме | val1 | val2 | val3 | + ...
вопрос задан: 27 September 2017 16:38
1
ответ

Ошибка бросания Pyspark: py4j.Py4JException: метод __getstate __ ([]) не существует [дубликат]

У меня есть метод в файле Scala, который возвращает py4j.java_collections.JavaMap в моем pyspark-коде. Я считаю, что могу использовать словарные методы на моей карте Java. Но я не могу. Я пытаюсь использовать ...
вопрос задан: 31 August 2017 09:42
1
ответ

Фильтр A Spark Dataframe на основе количества дней между двумя столбцами TimeStamp [дубликат]

В настоящее время я пытаюсь передать некоторые запросы T-SQL для запуска на Apache Spark. У меня есть два поля, сохраненные как метки времени в паркет. Однако я хочу преобразовать условие where следующего SQL-запроса в ...
вопрос задан: 17 May 2017 09:54
1
ответ

как изменить схему структуры внутри фрейма данных? [Дубликат]

У меня есть код, подобный этому df.select (col ("productionformation")). PrintSchema () output: | - productionformation: struct (nullable = true) | | - _1: string (nullable = true) | | - _2: string (...
вопрос задан: 24 March 2017 20:54
1
ответ

PySpark: добавить столбец с индексом группы [duplicate]

Я действительно новичок в искру и у меня мало проблем. Предположим, у меня есть это: 'a' | 'b' 0 | 5416 1 | 5278 2 | 2 3 | 568 0 | 416 1 | 216 2 | 56 3 | 56, и я хочу третьего ...
вопрос задан: 6 March 2017 16:22
1
ответ

Как заменить все нулевые значения в dataprame в Pyspark

У меня есть фрейм данных в pyspark с более чем 300 столбцами. В этих столбцах есть несколько столбцов со значениями null. Например: Column_1 column_2 null null null null 234 null 125 ...
вопрос задан: 18 February 2017 07:56
1
ответ

PySpark 2.1. Безножки с нулевым плюсом [дубликат]

Я использую PySpark 2.1. Я пытаюсь фильтровать данные по строке даты как таковой «2017-12-01». Однако в моих исходных данных это выглядит следующим образом. ID YEAR MONTH ДЕНЬ 1 2017 12 10 2 2017 ...
вопрос задан: 29 December 2016 09:25
1
ответ

Преобразовать список pyspark.mllib.linalg.SparseVectors в csr_matrix [duplicate]

Пусть truearray будет numpy-массивом объектов pyspark.mllib.linalg.SparseVector: & gt; & gt; & gt; & gt; & gt; массив truearray ([SparseVector (262144, {0: 1.0, 72: 1.0, 106: 1.0, 202: 1.0, 413: 1.0, 417: 1.0}), ...
вопрос задан: 12 November 2016 00:07
1
ответ

как получить элементы из вероятности Прогноз столбцов в модели pyspark [duplicate]

Как я могу получить первый элемент из вероятностной модели в виде кадра данных pyspark? + ------ + -------------------- + | labelh | вероятность | + ------ + -------------------- + | 1 | [0 ....
вопрос задан: 18 September 2016 11:56
1
ответ

карта в dataframe - pyspark [дубликат]

Здесь я передаю dataframe (CV_data), чтобы добавить метки для Decision Tree def label Данные (данные): # label: row [end], features: row [0: end-1] return data.map (лямбда-строка: LabeledPoint (строка [-1], ...
вопрос задан: 16 September 2016 17:23
1
ответ

PySpark SQL: структура структуры экспорта [дубликат]

Я использую PySpark, и для одного из наборов данных мне нужно экспортировать схему фрейма данных. Как и в ответе, приведенном здесь, но в той же версии pyspark. Есть ли способ сделать это?
вопрос задан: 8 July 2016 23:17
1
ответ

PySpark получает вложенный массив из sql Dataframe [duplicate]

У меня есть dataframe из sql, например: + ---- + ---------- + | ID | категория | + ---- + ---------- + | 1 | 1 | | 1 | 2 | | 2 | 4 | | 3 | 1 | | 3 | 4 | + ---- + ---------- + I ...
вопрос задан: 2 June 2016 00:17
1
ответ

IllegalArgumentException: u'Data type StringType столбца не поддерживается [дублировать]

Мне нужно выполнить линейную регрессию в Pyspark, я просто попытался выполнить шаги этой ссылки: https://towardsdatascience.com/building-a-linear-regression-with-pyspark-and-mllib-d065c3ba246a В моем ...
вопрос задан: 30 May 2016 14:39
1
ответ

Рандомизация Dataframe или RDD для тренировки ML в Spark [дубликат]

Как я могу случайным образом перетасовать данные обучения для классификатора Spark? Прямо сейчас у меня есть dataframe, где первые N строк относятся к положительному классу, а остальные M строк относятся к отрицательному ...
вопрос задан: 22 April 2016 20:44