apache-spark - список вопросов по программированию apache-spark

1

ответ

Эффективный способ генерировать большие рандомизированные данные в Spark

Я пытаюсь создать большой случайный набор данных искры. По сути, я хочу начать с 2018-12-01 09:00:00, и для каждой новой строки отметка времени будет меняться на scala.util.Random.nextInt (3) секунды (...

scala apache-spark dataframe

вопрос задан: 9 March 2019 23:57

1

ответ

Как конвертировать String в spark.sql.Column для запросов?

Ситуация такова, что я хочу дать пользователю возможность отфильтровывать данные из кадра данных. Прогамматически я могу сделать это нормально, как это. val filter = col ("SomeColA") > 0,1 & amp; Col (»...

apache-spark dataframe

вопрос задан: 6 March 2019 16:13

1

ответ

Инкрементный фильтр DataFrame с использованием различных значений с помощью Spark

Прежде всего у меня есть датафрейм с различными значениями: | Дней | | день1 | | день2 | | день3 | Затем у меня есть другой Dataframe с некоторыми значениями, как это | A | Б | Дней | | 1 | 2 | день1 | | 3 | 4 | день3 | ...

scala apache-spark

вопрос задан: 6 March 2019 10:27

1

ответ

Как обеспечить локальность данных в источнике данных Spark v2?

Я реализовал источник данных Spark (v2) и не нашел способа обеспечить локальность данных. В источнике данных v1 может быть реализован метод getPreferredLocations, что эквивалентно источнику данных v2?

apache-spark apache-spark-sql datasource

вопрос задан: 6 March 2019 08:25

1

ответ

чтение файлов журнала сервера sql (ldf) с помощью spark [закрыто]

это, вероятно, надумано, но ... может ли зажечь - или любую известную вам продвинутую технологию "ETL" - подключиться напрямую к файлу журнала сервера sql (.ldf) - и извлечь его данные? Повестка дня, чтобы получить SQL-сервер ...

apache-spark

вопрос задан: 5 March 2019 20:34

1

ответ

Выполнение искры в первый раз занимает приблизительно 13 секунд, но второе, а каждый второй раз - 3,5 секунды.

Я использую pyspark и Flask для интерактивной искры в качестве сервисного приложения. Мое приложение должно получить запрос с некоторыми параметрами и вернуть ответ обратно. Мой код здесь: // сначала я делаю UDF ...

apache-spark flask pyspark

вопрос задан: 5 March 2019 16:49

1

ответ

Разбор SparkSQL - SqlBase.g4 не распознает строчные ключевые слова и идентификаторы

Я скачал SqlBase.g4 и использую инструмент antlr v4 для сборки лексера и парсера. Однако, когда я запускаю анализатор для очень простого запроса: select * from table1, он не может распознать строчные буквы ...

sql apache-spark apache-spark-sql antlr

вопрос задан: 5 March 2019 12:55

1

ответ

Как использовать createpairedStream в MQTTUtils?

Я не могу использовать MQTTUtils.createPairedStream () в Scala? Как указать список тем в качестве параметров? Я перепробовал все способы, такие как словарь, список, кортежи, но это не сработало. И затем я ...

scala apache-spark spark-streaming mqtt apache-bahir

вопрос задан: 5 March 2019 10:14

1

ответ

встроенная функция spark-sql dayofmonth, возвращающая странные результаты

По какой-то странной причине, функция dayofmonth в искре, кажется, возвращает странное значение в течение 1500 лет или меньше. Ниже приведены полученные результаты -> scala > spark.sql ("ВЫБРАТЬ ...

scala apache-spark apache-spark-sql

вопрос задан: 5 March 2019 09:33

1

ответ

Влияет ли количество разделов всех объединяемых таблиц на максимальных исполнителей?

У меня есть Spark SQL как select ... from A join B на A.k = B.k join C на A.k = C.k A имеет 2k разделов; B имеет 7 разделов; пока С не разделен. Я установил максимальный динамический номер исполнителя на ...

apache-spark pyspark apache-spark-sql

вопрос задан: 4 March 2019 08:16

1

ответ

Невозможно создать таблицу с искровым SQL: поддержка Hive требуется для CREATE Hive TABLE (AS SELECT);

Я пытаюсь создать таблицу в spark (scala), а затем вставить значения из двух существующих фреймов данных, но я получил это исключение: Исключение в потоке "main" org.apache.spark.sql.AnalysisException: Hive ...

sql scala apache-spark hive-table

вопрос задан: 3 March 2019 09:20

1

ответ

Восстановите Матрицу из компонентов SVD с помощью Pyspark

Я работаю над SVD, используя pyspark. Но в документации, как и в любом другом месте, я не нашел, как восстановить матрицу обратно, используя сегментированные векторы. Например, используя svd of ...

apache-spark pyspark apache-spark-mllib svd

вопрос задан: 2 March 2019 09:11

1

ответ

Spark (Scala) фильтрует массив конструкций без взрыва

У меня есть dataframe с ключом и столбец с массивом структур в столбце dataframe. Каждая строка содержит столбец a выглядит примерно так: [{"id": 1, "someProperty": "xxx", "...

scala apache-spark

вопрос задан: 2 March 2019 02:40

1

ответ

Как я могу разделить столбец от DataFrame, но сохранить его связь с начальным DataFrame?

У меня есть dataDF фрейма данных: + ------- + ------ + ----- + ----- + ----------- + | TEST_PK | Col_1 | COL_2 | COL_3 | h_timestamp | + ------- + ------ + ----- + ----- + ----------- + | 1 | яблоко | 10 | 1,79 | 1111 | ...

scala apache-spark dataframe

вопрос задан: 1 March 2019 17:44

1

ответ

объединить столбцы данных scala в одном классе

У меня есть датафрейм, который выглядит так: + -------- + ----- + -------------------- + | UID | н.о.р. | цвет | + -------- + ----- + -------------------- + | 41344966 | 1305 | красный | | ...

scala apache-spark apache-spark-dataset

вопрос задан: 28 February 2019 23:11

1

ответ

Обновление столбца в таблице Spark с использованием SQL

Я хотел бы добавить столбец в таблицу, а затем заполнить его значениями из другой таблицы. Ниже приведен упрощенный вариант моей проблемы. CREATE TABLE table_1 (id INT, DECIMAL (19,2)) ВСТАВИТЬ ...

apache-spark apache-spark-sql

вопрос задан: 28 February 2019 22:07

1

ответ

Spark Structured Streaming writestream не записывает файл, пока я не остановлю работу

Я использую Spark Structured Streaming для классического варианта использования: я хочу прочитать тему kafka и записать поток в HDFS в формате паркета. Вот мой код: импорт org.apache.spark.sql ....

scala apache-spark apache-kafka parquet spark-structured-streaming

вопрос задан: 28 February 2019 21:27

1

ответ

Фрейм данных pyspark работает с несколькими столбцами динамически

Предположим, что в pyspark у меня есть фрейм данных со столбцами, названными 'a1', 'a2', 'a3' ... 'a99'. Как применить операцию к каждому из них, чтобы динамически создавать новые столбцы с новыми именами? Например, чтобы узнать ...

python apache-spark pyspark apache-spark-sql

вопрос задан: 28 February 2019 18:20

1

ответ

Как сравнить наборы данных?

У меня есть приложение Spark, которое выполняет пользовательские запросы правильной формы к набору данных. Каждый из них управляет только подмножеством всего набора данных, называемого «группами», которые на самом деле являются просто фильтрами ...

apache-spark

вопрос задан: 28 February 2019 18:02

1

ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня есть следующий код pyspark, который я использую для чтения файлов журнала из каталога logs /, а затем сохраняю результаты в текстовый файл, только когда в нем есть данные ... другими словами, когда RDD не пуст. ...

python-3.x apache-spark pyspark spark-streaming

вопрос задан: 28 February 2019 17:39

1

ответ

Построение матрицы различий в Spark

Я пытаюсь построить матрицу различий, используя искру, и не понимаю, как это сделать оптимально. Я новичок в искре. Я привел небольшой пример того, что я пытаюсь сделать ниже. Пример различия ...

scala apache-spark rdd

вопрос задан: 27 February 2019 17:34

1

ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, и в рамках моей работы по сбору данных я должен использовать метод insertinto для загрузки данных в таблицы кустов. Но есть ошибка с версией Spark 2.1, вставьте в ...

apache-spark hive pyspark apache-spark-sql

вопрос задан: 26 February 2019 16:41

1

ответ

Spark читает несколько файлов: двойные кавычки заменены на% 22

У меня есть требования для чтения случайных файлов JSON в разных папках, где данные изменились. Поэтому я не могу применить регулярное выражение для чтения шаблона. Я знаю, какие это файлы, и я мог бы перечислить их. Но когда я формирую ...

json scala apache-spark apache-spark-sql rdd

вопрос задан: 26 February 2019 11:14

1

ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

значения = [(u '[23,4,77,890,455]', 10), (u '[11,2,50,1,11]', 20), (u '[10,5,1,22,04 ] ', 30)] df = sqlContext.createDataFrame (values, [' list ',' A ']) df.show () + ----------------- + - - + | list_1 | | + -----...

python apache-spark pyspark apache-spark-sql pyspark-sql

вопрос задан: 26 February 2019 10:31

1

ответ

Преобразовать список пар ключ-значение в каждой строке СДР в один ключ-значение в каждой строке

У меня есть СДР в виде списка ((a, b), (b, c)) List ((d, e)) Как я могу получить его как (a, b) (b, c) (d, e) у меня есть попробовал RDD.flatMap (x => x), это не работает, потому что есть список пар ключ-значение, а не просто ...

scala apache-spark rdd

вопрос задан: 24 February 2019 17:04

1

ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла CSV (миллионы строк) с одной и той же схемой со столбцом первичного ключа и распечатать различия. Например, CSV1 Id name zip 1 name1 ...

apache-spark hive apache-spark-sql hdfs bigdata

вопрос задан: 23 February 2019 18:32

1

ответ

Разница между callUDF и udf.register в искре

У меня есть udf как часть импорта, и я использую его в своем искровом коде. $ name ...

scala apache-spark apache-spark-sql

вопрос задан: 22 February 2019 16:59

1

ответ

Spark структурированный поток: java.lang.NoClassDefFoundError для GroupStateTimeout [дубликат]

Я пытаюсь использовать mapGroupsWithState в структурированной потоковой передаче, как определено в https://spark.apache.org/docs/2.2.0/api/scala/index.html#org.apache.spark.sql.streaming.GroupState Я понимаю ...

apache-spark spark-streaming spark-structured-streaming

вопрос задан: 21 February 2019 03:39

1

ответ

Spark SQL игнорирует значение фильтра динамического раздела

Встала проблема с Spark 2.4 на EMR 5.20 в AWS. У меня есть строковый столбец в качестве раздела, который имеет значения даты. Моя цель - сделать так, чтобы максимальное значение этого столбца упоминалось как фильтр. ...

apache-spark apache-spark-sql

вопрос задан: 20 February 2019 21:22

1

ответ

Не удается создать кластер Dataproc при установке свойства fs.defaultFS?

Это уже было предметом обсуждения в предыдущем посте, однако я не убежден в ответах, так как документы Google указывают, что можно создать кластер с настройкой fs.defaultFS ...

apache-spark hadoop google-cloud-dataproc

вопрос задан: 19 February 2019 21:39