0
ответов

Как создать фрейм данных из списка в Spark SQL?

Версия Spark: 2.1 Например, в pyspark я создаю список test_list = [['Hello', 'world'], ['I', 'am', 'fine']], затем как создать фрейм данных из test_list где тип датафрейма ...
вопрос задан: 6 May 2019 01:29
0
ответов

Неиспользованный искровой рабочий

Я настроил автономный искровой кластер, подключенный к кластеру Cassandra с 1 главным, 1 подчиненным и Thrift-сервером, который используется в качестве коннектора JDBC для приложения Tableau. Раб появляется в рабочих ...
вопрос задан: 11 April 2019 10:50
0
ответов

Создайте столбец ArrayType [StructType] из Dataframe в UDF

Я создал BucketedRandomProjectionLSHModel, чтобы узнать приблизительные ближайшие соседи для каждой строки в моем наборе данных. Сигнатура для приближенной ближайшей функции определена ...
вопрос задан: 11 April 2019 10:00
0
ответов

NullpointerException при подключении к Postgres из Spark & ​​mdash; Зачем?

объект App {def main (args: Array [String]) {val conf = new spark.SparkConf (). setMaster ("local [2]"). setAppName ("mySparkApp") val sc = new spark.SparkContext (conf) val sqlContext = new ...
вопрос задан: 10 April 2019 20:19
0
ответов

Анализ правил ассоциации Pyspark +: как перевести фрейм данных в формат, подходящий для частого анализа шаблонов?

Я пытаюсь использовать pyspark для майнинга правил ассоциации. Допустим, мои данные похожи на: myItems = spark.createDataFrame ([(1, 'a'), (1, 'b'), (1, '...
вопрос задан: 8 April 2019 05:26
0
ответов

Как добавить совершенно не относящийся к делу столбец во фрейм данных при использовании pyspark, spark + databricks

Допустим, у меня есть фрейм данных: myGraph = spark.createDataFrame ([(1.3,2.1,3.0), (2.5,4.6,3.1), (6.5,7.2,10.0)], ...
вопрос задан: 7 April 2019 07:00
0
ответов

Искры итеративного Kmeans не получают ожидаемых результатов?

Я пишу наивную реализацию Kmeans в Spark для моей домашней работы: import breeze.linalg. {Vector, DenseVector, squaredDistance} import scala.math def parse (line: String): Vector [Double] = {...
вопрос задан: 6 April 2019 23:25
0
ответов

Раздел DataFrameBy в один файл Parquet (на раздел)

Я хотел бы перераспределить / объединить мои данные, чтобы они сохранялись в одном файле Parquet на раздел. Я также хотел бы использовать API Spark SQL partitionBy. Так что я мог бы сделать это так: DF ....
вопрос задан: 2 April 2019 16:25
0
ответов

Как обработать входной DStream, разделив его на RDD для печати сообщений Kafka?

Я создаю Spark Streaming Application и хочу обрабатывать каждое сообщение Кафки отдельно. Сейчас я хочу просто записать значения сообщений, чтобы проверить, что все работает. Но когда я пытаюсь напечатать ...
вопрос задан: 1 April 2019 22:03
0
ответов

Наиболее эффективный способ взрыва столбца данных Pyspark

У меня очень большой фрейм данных pyspark. Фрейм данных содержит два важных столбца: ключ и токены, связанные с этим ключом. Таким образом, в каждой строке есть ключ и список токенов: load_df.show (5) + -----------------...
вопрос задан: 30 March 2019 22:47
0
ответов

Ошибка java.lang.StackOverflowError при выполнении анализа настроений на Spark (из-за функции карты)

Мы обучаемся выполнять анализ настроений в Твиттере с помощью Hadoop, и мы получаем ошибку выше от Spark, мы думаем, что она связана с функцией карты. var labelAndPredsTrain = trainingData.map {...
вопрос задан: 29 March 2019 14:51
0
ответов

AnalysisException генерируется, когда DataFrame пуст (такого структурного поля нет)

У меня есть датафрейм, к которому я применяю фильтр, а затем серию преобразований. В конце я выбираю несколько столбцов. // Фильтрует событие, связанное с user_principal. var FilterCount = ...
вопрос задан: 29 March 2019 13:28
0
ответов

Установить соединение с БД через искру в Eclipse

Я кодирую в Eclipse, Java с искрой импортированы. Мне нужна помощь только с первым методом, «подключить» метод, чтобы подключиться к БД. У меня есть информация о «добытчиках», как их решить, но ...
вопрос задан: 29 March 2019 12:28
0
ответов

Как исправить ошибку: & ldquo; java.net.URISyntaxE xception: Относительный путь в абсолютном URI & rdquo; при создании таблицы улья

Я собираюсь создать внешнюю таблицу в Hive, используя приведенный ниже код: CREATE EXTERNAL TABLE product (productID int, строка кода, строка имени, количество int, плавающая цена) STORED AS orc LOCATION "пользователь / ...
вопрос задан: 29 March 2019 02:42
0
ответов

apache spark (в java) машинное обучение com.github.fommil.netlib.F2jBLAS.dscal (F2jBLAS.java:176) ошибка

В Java я хочу использовать библиотеку машинного обучения Apache и использовать пример кода с https://spark.apache.org/docs/2.2.0/ml-pipeline.html, чтобы использовать классификатор для подгонки / обучения данных и прогнозирования. на ...
вопрос задан: 28 March 2019 20:41
0
ответов

Искра DataFrame, за исключением исключения функции

Я пытаюсь реализовать функцию удаления для паркета при использовании, кроме функции я получаю исключение org.apache.spark.sql.AnalysisException: Resolved attribute (s) {all attribute of dataframe} ...
вопрос задан: 28 March 2019 14:53
0
ответов

Как отсортировать GroupedData в Spark с помощью Pyspark

Я новичок, чтобы зажечь, но я должен объединить 2 кадра данных вместе. Затем сгруппируйте по одному из столбцов и отсортируйте по другому столбцу, и я продолжаю получать ошибки. Ниже я попробовал: cmte = spark.read.json ("/ ...
вопрос задан: 28 March 2019 09:35
0
ответов

Как сравнить 2 кадра данных в pyspark на основе динамических столбцов

У меня есть 2 dataframes, которые я обрабатываю в pyspark из разных источников. Эти кадры данных имеют несколько общих столбцов. Вот что мне нужно сделать, сравнить 2 кадра данных на основе столбцов, которые ...
вопрос задан: 28 March 2019 03:08
0
ответов

Периодически выполнять запрос куста без блокировки при выполнении заданий потоковой передачи

Как мне периодически выполнять неблокирующий запрос MSCK REPAIR TABLE database.table? Поддерживает ли Spark Streaming это изначально или я должен полагаться на модуль потоков Python? У меня есть ...
вопрос задан: 27 March 2019 15:38
0
ответов

Проверьте зашифрованные данные RPC в движении на HDFS / YARN / Spark / Hbase

У нас есть особое требование проверять / проверять данные в движении, когда зашифрованные RPC потоки данных для всей связи с клиентом, а также внутри больших компонентов данных, таких как HBase / Phoenix / HDFS / YARN / Hive ...
вопрос задан: 27 March 2019 08:02
0
ответов

Spark Streaming с окном из N элементов

В Spark Streaming, используя Scala или Java, как получить поток, который всегда содержит самые последние N элементов? Я знаком с возможностью создания оконных потоков, используя такие методы, как ...
вопрос задан: 27 March 2019 07:45
0
ответов

Как получить среднее сходство Jaccard среди строк текстового столбца, используя PySpark

Мой Dataframe выглядит так: schema = ['name', 'text'] rdd = sc.parallelize (["abc, xyz a", "abc, xyz a", "abc, xyz b", "att, xcy b "," att, vwa c "," acy, xyz a "," acy, xyz a "]) \ .map (lambda x: x.split (", ")) ...
вопрос задан: 27 March 2019 06:17
0
ответов

PySpark: использовать первичный ключ строки в качестве начального числа для ранда

Я пытаюсь использовать функцию rand в PySpark для генерации столбца со случайными числами. Я бы хотел, чтобы функция rand принимала первичный ключ строки в качестве начального числа, чтобы число было ...
вопрос задан: 26 March 2019 21:25
0
ответов

Spark не разрешает отдельные запросы для одних и тех же источников данных в пределах одного SQL-запроса Spark

Давайте рассмотрим пример двух вновь созданных фреймов данных empDF и deptDF. Создайте представление empDF.createOrReplaceTempView ("table1") deptDF.createOrReplaceTempView ("table2") spark.sql ("select * from table1 ..."
вопрос задан: 25 March 2019 17:51
0
ответов

PySpark Выбрать топ-записи, используя разделы

У меня есть большой набор данных на S3, сохраненный в виде файлов паркета, разделенных столбцом «last_update». Я хочу взять первые 10 миллионов записей, по заказу last_update ASC. Я пытался сохранить прикрепленный фрейм данных на S3 ...
вопрос задан: 25 March 2019 15:10
0
ответов

Как избежать / исправить ошибку & ldquo; java.io.Serializable & rdquo; в Scala

Как вы обычно исправляете ошибку "java.io.Serializable" ниже? Я предполагаю, что типы данных в моих функциях вызвали это (?). Как этого избежать ИЛИ изменить результат обратно на правильный тип. Def ...
вопрос задан: 24 March 2019 22:11
0
ответов

Как поддержать writeStream в источнике данных v2 (spark 2.3.1)

Я пишу источник данных spark v2 в spark 2.3, и я хочу поддерживать writeStream. Что я должен сделать, чтобы сделать это? мой класс defaultSource: класс MyDefaultSource расширяет DataSourceV2 с помощью ReadSupport ...
вопрос задан: 24 March 2019 20:24
0
ответов

Разверните векторные столбцы в скалярные столбцы в Apache Spark в pyspark

Как расширить векторный столбец, присутствующий в кадре данных искры, в скалярные столбцы. Используемая мной версия spark 2.4.0, и я использую python (pyspark) для написания кода.
вопрос задан: 20 March 2019 15:37
0
ответов

Cube / Roll up Функция dataframe, но пропустить суммирование столбца для нескольких записей в искре

У меня есть следующий фрейм данных: + -------- + ------ + --------- + --------- + | Col1 | col2 | значения1 | Значения2 | + -------- + ------ + --------- + --------- + | item1 | A1 | 5 | 11 | | item1 | A2 | ...
вопрос задан: 19 March 2019 09:25
0
ответов

Pyspark - удалить документ из таблицы MapR DB JSON

Требуется удалить некоторые строки, хранящиеся в таблице Json Mapr DB. Я использовал следующее для чтения и записи данных в таблицу mapr db json с помощью spark. Сохранение фрейма данных Apache Spark в JSON базы данных MapR
вопрос задан: 19 March 2019 06:56