apache-spark - список вопросов по программированию apache-spark

0

ответов

Как создать фрейм данных из списка в Spark SQL?

Версия Spark: 2.1 Например, в pyspark я создаю список test_list = [['Hello', 'world'], ['I', 'am', 'fine']], затем как создать фрейм данных из test_list где тип датафрейма ...

pyspark apache-spark python

вопрос задан: 6 May 2019 01:29

0

ответов

Неиспользованный искровой рабочий

Я настроил автономный искровой кластер, подключенный к кластеру Cassandra с 1 главным, 1 подчиненным и Thrift-сервером, который используется в качестве коннектора JDBC для приложения Tableau. Раб появляется в рабочих ...

apache-spark spark-thriftserver

вопрос задан: 11 April 2019 10:50

0

ответов

Создайте столбец ArrayType [StructType] из Dataframe в UDF

Я создал BucketedRandomProjectionLSHModel, чтобы узнать приблизительные ближайшие соседи для каждой строки в моем наборе данных. Сигнатура для приближенной ближайшей функции определена ...

scala apache-spark apache-spark-sql apache-spark-ml

вопрос задан: 11 April 2019 10:00

0

ответов

NullpointerException при подключении к Postgres из Spark & mdash; Зачем?

объект App {def main (args: Array [String]) {val conf = new spark.SparkConf (). setMaster ("local [2]"). setAppName ("mySparkApp") val sc = new spark.SparkContext (conf) val sqlContext = new ...

postgresql scala apache-spark

вопрос задан: 10 April 2019 20:19

0

ответов

Анализ правил ассоциации Pyspark +: как перевести фрейм данных в формат, подходящий для частого анализа шаблонов?

Я пытаюсь использовать pyspark для майнинга правил ассоциации. Допустим, мои данные похожи на: myItems = spark.createDataFrame ([(1, 'a'), (1, 'b'), (1, '...

apache-spark pyspark associations fpgrowth

вопрос задан: 8 April 2019 05:26

0

ответов

Как добавить совершенно не относящийся к делу столбец во фрейм данных при использовании pyspark, spark + databricks

Допустим, у меня есть фрейм данных: myGraph = spark.createDataFrame ([(1.3,2.1,3.0), (2.5,4.6,3.1), (6.5,7.2,10.0)], ...

string apache-spark dataframe pyspark databricks

вопрос задан: 7 April 2019 07:00

0

ответов

Искры итеративного Kmeans не получают ожидаемых результатов?

Я пишу наивную реализацию Kmeans в Spark для моей домашней работы: import breeze.linalg. {Vector, DenseVector, squaredDistance} import scala.math def parse (line: String): Vector [Double] = {...

scala apache-spark rdd k-means

вопрос задан: 6 April 2019 23:25

0

ответов

Раздел DataFrameBy в один файл Parquet (на раздел)

Я хотел бы перераспределить / объединить мои данные, чтобы они сохранялись в одном файле Parquet на раздел. Я также хотел бы использовать API Spark SQL partitionBy. Так что я мог бы сделать это так: DF ....

apache-spark-sql apache-spark

вопрос задан: 2 April 2019 16:25

0

ответов

Как обработать входной DStream, разделив его на RDD для печати сообщений Kafka?

Я создаю Spark Streaming Application и хочу обрабатывать каждое сообщение Кафки отдельно. Сейчас я хочу просто записать значения сообщений, чтобы проверить, что все работает. Но когда я пытаюсь напечатать ...

scala apache-spark apache-kafka spark-streaming

вопрос задан: 1 April 2019 22:03

0

ответов

Наиболее эффективный способ взрыва столбца данных Pyspark

У меня очень большой фрейм данных pyspark. Фрейм данных содержит два важных столбца: ключ и токены, связанные с этим ключом. Таким образом, в каждой строке есть ключ и список токенов: load_df.show (5) + -----------------...

apache-spark dataframe pyspark

вопрос задан: 30 March 2019 22:47

0

ответов

Ошибка java.lang.StackOverflowError при выполнении анализа настроений на Spark (из-за функции карты)

Мы обучаемся выполнять анализ настроений в Твиттере с помощью Hadoop, и мы получаем ошибку выше от Spark, мы думаем, что она связана с функцией карты. var labelAndPredsTrain = trainingData.map {...

scala apache apache-spark sentiment-analysis

вопрос задан: 29 March 2019 14:51

0

ответов

AnalysisException генерируется, когда DataFrame пуст (такого структурного поля нет)

У меня есть датафрейм, к которому я применяю фильтр, а затем серию преобразований. В конце я выбираю несколько столбцов. // Фильтрует событие, связанное с user_principal. var FilterCount = ...

scala apache-spark databricks

вопрос задан: 29 March 2019 13:28

0

ответов

Установить соединение с БД через искру в Eclipse

Я кодирую в Eclipse, Java с искрой импортированы. Мне нужна помощь только с первым методом, «подключить» метод, чтобы подключиться к БД. У меня есть информация о «добытчиках», как их решить, но ...

sql json eclipse apache-spark

вопрос задан: 29 March 2019 12:28

0

ответов

Как исправить ошибку: & ldquo; java.net.URISyntaxE xception: Относительный путь в абсолютном URI & rdquo; при создании таблицы улья

Я собираюсь создать внешнюю таблицу в Hive, используя приведенный ниже код: CREATE EXTERNAL TABLE product (productID int, строка кода, строка имени, количество int, плавающая цена) STORED AS orc LOCATION "пользователь / ...

apache-spark hadoop hive hive-table

вопрос задан: 29 March 2019 02:42

0

ответов

apache spark (в java) машинное обучение com.github.fommil.netlib.F2jBLAS.dscal (F2jBLAS.java:176) ошибка

В Java я хочу использовать библиотеку машинного обучения Apache и использовать пример кода с https://spark.apache.org/docs/2.2.0/ml-pipeline.html, чтобы использовать классификатор для подгонки / обучения данных и прогнозирования. на ...

java apache-spark apache-spark-sql apache-spark-mllib

вопрос задан: 28 March 2019 20:41

0

ответов

Искра DataFrame, за исключением исключения функции

Я пытаюсь реализовать функцию удаления для паркета при использовании, кроме функции я получаю исключение org.apache.spark.sql.AnalysisException: Resolved attribute (s) {all attribute of dataframe} ...

scala apache-spark parquet

вопрос задан: 28 March 2019 14:53

0

ответов

Как отсортировать GroupedData в Spark с помощью Pyspark

Я новичок, чтобы зажечь, но я должен объединить 2 кадра данных вместе. Затем сгруппируйте по одному из столбцов и отсортируйте по другому столбцу, и я продолжаю получать ошибки. Ниже я попробовал: cmte = spark.read.json ("/ ...

python apache-spark pyspark

вопрос задан: 28 March 2019 09:35

0

ответов

Как сравнить 2 кадра данных в pyspark на основе динамических столбцов

У меня есть 2 dataframes, которые я обрабатываю в pyspark из разных источников. Эти кадры данных имеют несколько общих столбцов. Вот что мне нужно сделать, сравнить 2 кадра данных на основе столбцов, которые ...

apache-spark pyspark apache-spark-sql

вопрос задан: 28 March 2019 03:08

0

ответов

Периодически выполнять запрос куста без блокировки при выполнении заданий потоковой передачи

Как мне периодически выполнять неблокирующий запрос MSCK REPAIR TABLE database.table? Поддерживает ли Spark Streaming это изначально или я должен полагаться на модуль потоков Python? У меня есть ...

apache-spark hive pyspark apache-spark-sql spark-streaming

вопрос задан: 27 March 2019 15:38

0

ответов

Проверьте зашифрованные данные RPC в движении на HDFS / YARN / Spark / Hbase

У нас есть особое требование проверять / проверять данные в движении, когда зашифрованные RPC потоки данных для всей связи с клиентом, а также внутри больших компонентов данных, таких как HBase / Phoenix / HDFS / YARN / Hive ...

apache-spark encryption hdfs hbase rpc

вопрос задан: 27 March 2019 08:02

0

ответов

Spark Streaming с окном из N элементов

В Spark Streaming, используя Scala или Java, как получить поток, который всегда содержит самые последние N элементов? Я знаком с возможностью создания оконных потоков, используя такие методы, как ...

scala apache-spark spark-streaming

вопрос задан: 27 March 2019 07:45

0

ответов

Как получить среднее сходство Jaccard среди строк текстового столбца, используя PySpark

Мой Dataframe выглядит так: schema = ['name', 'text'] rdd = sc.parallelize (["abc, xyz a", "abc, xyz a", "abc, xyz b", "att, xcy b "," att, vwa c "," acy, xyz a "," acy, xyz a "]) \ .map (lambda x: x.split (", ")) ...

apache-spark pyspark apache-spark-mllib

вопрос задан: 27 March 2019 06:17

0

ответов

PySpark: использовать первичный ключ строки в качестве начального числа для ранда

Я пытаюсь использовать функцию rand в PySpark для генерации столбца со случайными числами. Я бы хотел, чтобы функция rand принимала первичный ключ строки в качестве начального числа, чтобы число было ...

apache-spark pyspark apache-spark-sql

вопрос задан: 26 March 2019 21:25

0

ответов

Spark не разрешает отдельные запросы для одних и тех же источников данных в пределах одного SQL-запроса Spark

Давайте рассмотрим пример двух вновь созданных фреймов данных empDF и deptDF. Создайте представление empDF.createOrReplaceTempView ("table1") deptDF.createOrReplaceTempView ("table2") spark.sql ("select * from table1 ..."

apache-spark apache-spark-sql pyspark-sql

вопрос задан: 25 March 2019 17:51

0

ответов

PySpark Выбрать топ-записи, используя разделы

У меня есть большой набор данных на S3, сохраненный в виде файлов паркета, разделенных столбцом «last_update». Я хочу взять первые 10 миллионов записей, по заказу last_update ASC. Я пытался сохранить прикрепленный фрейм данных на S3 ...

sorting apache-spark pyspark

вопрос задан: 25 March 2019 15:10

0

ответов

Как избежать / исправить ошибку & ldquo; java.io.Serializable & rdquo; в Scala

Как вы обычно исправляете ошибку "java.io.Serializable" ниже? Я предполагаю, что типы данных в моих функциях вызвали это (?). Как этого избежать ИЛИ изменить результат обратно на правильный тип. Def ...

scala apache-spark

вопрос задан: 24 March 2019 22:11

0

ответов

Как поддержать writeStream в источнике данных v2 (spark 2.3.1)

Я пишу источник данных spark v2 в spark 2.3, и я хочу поддерживать writeStream. Что я должен сделать, чтобы сделать это? мой класс defaultSource: класс MyDefaultSource расширяет DataSourceV2 с помощью ReadSupport ...

apache-spark spark-streaming spark-structured-streaming

вопрос задан: 24 March 2019 20:24

0

ответов

Разверните векторные столбцы в скалярные столбцы в Apache Spark в pyspark

Как расширить векторный столбец, присутствующий в кадре данных искры, в скалярные столбцы. Используемая мной версия spark 2.4.0, и я использую python (pyspark) для написания кода.

python apache-spark pyspark apache-spark-sql

вопрос задан: 20 March 2019 15:37

0

ответов

Cube / Roll up Функция dataframe, но пропустить суммирование столбца для нескольких записей в искре

У меня есть следующий фрейм данных: + -------- + ------ + --------- + --------- + | Col1 | col2 | значения1 | Значения2 | + -------- + ------ + --------- + --------- + | item1 | A1 | 5 | 11 | | item1 | A2 | ...

apache-spark apache-spark-sql

вопрос задан: 19 March 2019 09:25

0

ответов

Pyspark - удалить документ из таблицы MapR DB JSON

Требуется удалить некоторые строки, хранящиеся в таблице Json Mapr DB. Я использовал следующее для чтения и записи данных в таблицу mapr db json с помощью spark. Сохранение фрейма данных Apache Spark в JSON базы данных MapR

apache-spark pyspark mapr

вопрос задан: 19 March 2019 06:56