databricks - список вопросов по программированию databricks

3

ответа

Невозможно получить доступ к внешней переменной в pyspark UDF [duplicate]

У меня есть dataframe, который имеет N столбцов. Я повторяю все столбцы, потому что хочу получить новый столбец из этого столбца. Для создания нового столбца мне нужно передать две дополнительные внешние переменные ...

вопрос задан: 28 April 2015 05:04

2

ответа

Не удалось выполнить определенную пользователем функцию ($ anonfun $ createTransformFunc $ 1: (string) = & gt; array & lt; string & gt; [duplicate]

Я создал DataFrame, как показано ниже resultWithId = production_df.withColumn ("id", monotonically_increasing_id ()) resultWithId.show (5, truncate = False) resultWithId.printSchema () Результат: ...

regex apache-spark pyspark databricks

вопрос задан: 1 November 2016 01:51

1

ответ

PySpark заполнить отсутствующее / неправильное значение сгруппированным средним

У меня есть Spark dataframe с одним отсутствующим и одним неправильным значением. из pyspark.sql import Row из pyspark.sql.types import StringType, DoubleType, StructType, StructField # данные данных о продажах фруктов = [...

pyspark apache-spark-sql databricks

вопрос задан: 19 January 2019 21:22

1

ответ

sparkSession.sql, выбрасывающий исключение NullPointerException

У меня есть два класса scala, как часть моей работы с spark-sql, то есть Driver.scala и ExtractorOne.scala. Driver.scala передает различные параметры, такие как объект sparkSession и т. Д., В различные экстракторы, такие как ...

scala apache-spark apache-spark-sql databricks

вопрос задан: 16 January 2019 08:18

1

ответ

Как программно определить среду Databricks

Я пишу искровое задание, которое должно быть запущено локально, а также Databricks. Код должен быть немного другим в каждой среде (пути к файлу), поэтому я пытаюсь найти способ обнаружения, если ...

java apache-spark databricks

вопрос задан: 13 July 2018 16:13

1

ответ

См. Ошибки прогнозирования различных параметров из CrossValidator Spark MLlib (в Scala) [дубликат]

Недавно я воспользовался MLLib Spark, и у меня был некоторый успех, используя Spark's CrossValidator для настройки параметров моей модели. Но я думаю, что было бы полезно начать визуализацию модели ...

scala apache-spark apache-spark-mllib databricks

вопрос задан: 26 June 2018 11:33

1

ответ

Прочтите файл csv с помощью apache spark not work [duplicate]

Я использую искру apache для чтения файлов csv, я обнаружил, что если имя файла начинается с символа _ char, то загружаемый DataSet будет пустым, просто измените имя файла, удалив _ файл загружен правильно. ...

apache-spark databricks

вопрос задан: 11 July 2016 22:02

0

ответов

Как добавить совершенно не относящийся к делу столбец во фрейм данных при использовании pyspark, spark + databricks

Допустим, у меня есть фрейм данных: myGraph = spark.createDataFrame ([(1.3,2.1,3.0), (2.5,4.6,3.1), (6.5,7.2,10.0)], ...

string apache-spark dataframe pyspark databricks

вопрос задан: 7 April 2019 07:00

0

ответов

AnalysisException генерируется, когда DataFrame пуст (такого структурного поля нет)

У меня есть датафрейм, к которому я применяю фильтр, а затем серию преобразований. В конце я выбираю несколько столбцов. // Фильтрует событие, связанное с user_principal. var FilterCount = ...

scala apache-spark databricks

вопрос задан: 29 March 2019 13:28

0

ответов

Pyspark join не принимает 5 позиционных аргументов?

Я реализую LEFT JOIN на 5 столбцов в Pyspark. Но он выдает ошибку, как показано ниже. TypeError: join () принимает от 2 до 4 позиционных аргументов, но 5 получили код, реализованный:

pyspark left-join databricks

вопрос задан: 28 March 2019 07:13

0

ответов

Можно ли создать виджет календаря в кирпичах данных?

Я просто хотел использовать дату в качестве входных данных для записной книжки и хотел управлять обработкой параметров с помощью виджетов. Стандартная документация для виджетов блоков данных (https: //docs.databricks.com/user -...

widget databricks

вопрос задан: 27 March 2019 11:25

0

ответов

Как указать расположение моих данных на локальном компьютере при запуске кода на DataBricks?

Я пытаюсь запустить модель глубокого обучения классификации изображений на DataBricks. Изображения на моем локальном Mac. Когда я пытаюсь указать путь = '/ Users / o / Downloads / petfinder-усыновление-прогнозирование / train_images / train' I ...

web path databricks

вопрос задан: 22 March 2019 17:13

0

ответов

Проблема производительности Pyspark (Databricks). НЛП проблема

У меня проблема с производительностью при работе с задачей NLP в Pyspark, в Databricks: CONTEXT: у меня есть 2 фрейма данных pyspark со столбцом «ID» и столбцом «текст», например: Таблица A | Таблица ...

pyspark databricks

вопрос задан: 10 March 2019 15:18

0

ответов

получить тип данных столбца, используя pyspark

Мы читаем данные из коллекции MongoDB. Столбец коллекции имеет два разных значения (например: (bson.Int64, int) (int, float)). Я пытаюсь получить тип данных, используя pyspark. Моя проблема в некоторых столбцах ...

databricks apache-spark-sql pyspark apache-spark

вопрос задан: 16 January 2019 12:37

0

ответов

Azure Databricks монтирует хранилище BLOB-объектов

Я пытаюсь сопоставить хранилище BLOB-объектов из своей учетной записи хранения в кластер блоков данных. Я перехожу по этой ссылке, и здесь, по-видимому, мне просто нужно выполнить этот код в своей записной книжке: Код Python: dbutils ....

azure-storage-blobs databricks azure

вопрос задан: 15 January 2019 23:36

0

ответов

Использование Spark DataFrame непосредственно в Keras (блоки данных)

У меня есть текст, который я хочу классифицировать с помощью keras. Я создал конвейер, который принимает текст и выполняет некоторые преобразования в нем, и в конце концов один горячий кодирует его. Теперь я хочу пройти ...

apache-spark dataframe keras pyspark databricks

вопрос задан: 15 January 2019 18:32

0

ответов

Проблемы с производительностью кода при масштабировании

Ниже приведен код: clus = 0 для ix, sd в tqdm (перечисление (cs_df)): try: idxs = cs_df [ix] [cs_df [ix] & gt; порог]. index.values distclust.loc [idxs, "simvals"] = cs_df [ix] [...

python performance pandas databricks

вопрос задан: 13 July 2018 16:25