3
ответа

Невозможно получить доступ к внешней переменной в pyspark UDF [duplicate]

У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...
вопрос задан: 28 April 2015 05:04
2
ответа

Не удалось выполнить определенную пользователем функцию ($ anonfun $ createTransformFunc $ 1: (string) = & gt; array & lt; string & gt; [duplicate]

Я создал DataFrame, как показано ниже resultWithId = production_df.withColumn ("id", monotonically_increasing_id ()) resultWithId.show (5, truncate = False) resultWithId.printSchema () Результат: ...
вопрос задан: 1 November 2016 01:51
1
ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть Spark dataframe с одним отсутствующим и одним неправильным значением. из pyspark.sql import Row из pyspark.sql.types import StringType, DoubleType, StructType, StructField # данные данных о продажах фруктов = [...
вопрос задан: 19 January 2019 21:22
1
ответ

sparkSession.sql, выбрасывающий исключение NullPointerException

У меня есть два класса scala, как часть моей работы с spark-sql, то есть Driver.scala и ExtractorOne.scala. Driver.scala передает различные параметры, такие как объект sparkSession и т. Д., В различные экстракторы, такие как ...
вопрос задан: 16 January 2019 08:18
1
ответ

Как программно определить среду Databricks

Я пишу искровое задание, которое должно быть запущено локально, а также Databricks. Код должен быть немного другим в каждой среде (пути к файлу), поэтому я пытаюсь найти способ обнаружения, если ...
вопрос задан: 13 July 2018 16:13
1
ответ

См. Ошибки прогнозирования различных параметров из CrossValidator Spark MLlib (в Scala) [дубликат]

Недавно я воспользовался MLLib Spark, и у меня был некоторый успех, используя Spark's CrossValidator для настройки параметров моей модели. Но я думаю, что было бы полезно начать визуализацию модели ...
вопрос задан: 26 June 2018 11:33
1
ответ

Прочтите файл csv с помощью apache spark not work [duplicate]

Я использую искру apache для чтения файлов csv, я обнаружил, что если имя файла начинается с символа _ char, то загружаемый DataSet будет пустым, просто измените имя файла, удалив _ файл загружен правильно. ...
вопрос задан: 11 July 2016 22:02
0
ответов

Как добавить совершенно не относящийся к делу столбец во фрейм данных при использовании pyspark, spark + databricks

Допустим, у меня есть фрейм данных: myGraph = spark.createDataFrame ([(1.3,2.1,3.0), (2.5,4.6,3.1), (6.5,7.2,10.0)], ...
вопрос задан: 7 April 2019 07:00
0
ответов

AnalysisException генерируется, когда DataFrame пуст (такого структурного поля нет)

У меня есть датафрейм, к которому я применяю фильтр, а затем серию преобразований. В конце я выбираю несколько столбцов. // Фильтрует событие, связанное с user_principal. var FilterCount = ...
вопрос задан: 29 March 2019 13:28
0
ответов

Pyspark join не принимает 5 позиционных аргументов?

Я реализую LEFT JOIN на 5 столбцов в Pyspark. Но он выдает ошибку, как показано ниже. TypeError: join () принимает от 2 до 4 позиционных аргументов, но 5 получили код, реализованный:
вопрос задан: 28 March 2019 07:13
0
ответов

Можно ли создать виджет календаря в кирпичах данных?

Я просто хотел использовать дату в качестве входных данных для записной книжки и хотел управлять обработкой параметров с помощью виджетов. Стандартная документация для виджетов блоков данных (https: //docs.databricks.com/user -...
вопрос задан: 27 March 2019 11:25
0
ответов

Как указать расположение моих данных на локальном компьютере при запуске кода на DataBricks?

Я пытаюсь запустить модель глубокого обучения классификации изображений на DataBricks. Изображения на моем локальном Mac. Когда я пытаюсь указать путь = '/ Users / o / Downloads / petfinder-усыновление-прогнозирование / train_images / train' I ...
вопрос задан: 22 March 2019 17:13
0
ответов

Проблема производительности Pyspark (Databricks). НЛП проблема

У меня проблема с производительностью при работе с задачей NLP в Pyspark, в Databricks: CONTEXT: у меня есть 2 фрейма данных pyspark со столбцом «ID» и столбцом «текст», например: Таблица A | Таблица ...
вопрос задан: 10 March 2019 15:18
0
ответов

получить тип данных столбца, используя pyspark

Мы читаем данные из коллекции MongoDB. Столбец коллекции имеет два разных значения (например: (bson.Int64, int) (int, float)). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в некоторых столбцах ...
вопрос задан: 16 January 2019 12:37
0
ответов

Azure Databricks монтирует хранилище BLOB-объектов

Я пытаюсь сопоставить хранилище BLOB-объектов из своей учетной записи хранения в кластер блоков данных. Я перехожу по этой ссылке, и здесь, по-видимому, мне просто нужно выполнить этот код в своей записной книжке: Код Python: dbutils ....
вопрос задан: 15 January 2019 23:36
0
ответов

Использование Spark DataFrame непосредственно в Keras (блоки данных)

У меня есть текст, который я хочу классифицировать с помощью keras. Я создал конвейер, который принимает текст и выполняет некоторые преобразования в нем, и в конце концов один горячий кодирует его. Теперь я хочу пройти ...
вопрос задан: 15 January 2019 18:32
0
ответов

Проблемы с производительностью кода при масштабировании

Ниже приведен код: clus = 0 для ix, sd в tqdm (перечисление (cs_df)): try: idxs = cs_df [ix] [cs_df [ix] & gt; порог]. index.values ​​distclust.loc [idxs, "simvals"] = cs_df [ix] [...
вопрос задан: 13 July 2018 16:25