apache-spark - список вопросов по программированию apache-spark

1

ответ

Сокращение вывода журнала из Spark в программе Scala

Я пишу программу Scala / Spark, следуя этому примеру. Мои инструменты IntelliJ и SBT. (Я не использую scala spark shell.) Я использую scala-logging с logback-classic, и мне нужно уменьшить ...

вопрос задан: 18 January 2019 05:29

1

ответ

Spark binaryRecords () дает меньшую производительность по сравнению с текстовым File ()

У меня есть код искры работы, как показано ниже. Который прекрасно работает с конфигурацией ниже на кластере. String path = "/tmp/one.txt"; JavaRDD & л; SomeClass > jRDD = spark.read () .textFile (...

apache-spark

вопрос задан: 18 January 2019 05:14

1

ответ

Spark с использованием рекурсивного класса case

У меня есть рекурсивная структура данных. Spark выдает эту ошибку: Исключение в потоке "main" java.lang.UnsupportedOperationException: не может иметь циклические ссылки в классе, но получил циклическое ...

scala apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 18 January 2019 04:12

1

ответ

PySpark 2.4: перестало работать программное добавление Maven JAR-координат

Ниже приведен мой фрагмент запуска PySpark, который довольно надежен (я давно его использую). Сегодня я добавил две координаты Maven, показанные в опции spark.jars.packages (эффективно "...

python maven apache-spark pyspark apache-kafka

вопрос задан: 18 January 2019 04:04

1

ответ

Конвертировать HiveQL в Spark Scala

Я хочу преобразовать запрос HiveQL с оконной функцией в запрос Scala Spark ... но постоянно получаю одно и то же исключение Контекст проблемы: mytable состоит из полей категории и продукта. Мне нужно ...

scala apache-spark apache-spark-sql hiveql window-functions

вопрос задан: 17 January 2019 19:14

1

ответ

При записи в hdfs, как перезаписать только необходимые папки?

Итак, у меня есть эта папка, давайте назовем ее / data. И в нем есть разделы, например: / data / partition1, / data / partition2. Я читаю новые данные из kafka, и представьте, что мне нужно только обновить / data / partition2. Я ...

apache-spark-sql apache-spark

вопрос задан: 17 January 2019 17:20

1

ответ

Как мне взорвать набор данных с помощью flatmap? [Дубликат]

У меня есть последовательность класса case, который имеет строку, за которой следует последовательность строк. Как отобразить последовательность строк (второй столбец) без потери первого столбца? Я попробовал это: ...

apache-spark-sql apache-spark scala flatmap

вопрос задан: 17 January 2019 16:24

1

ответ

Создайте DataFrame, используя искру из файла Excel, который находится в пути к серверу

Я пытаюсь загрузить файл xls / xlsx с сервера с помощью этого кода https://github.com/crealytics/spark-excel SparkConf sparkConf = new SparkConf (); SparkContext sparkContext = null; sparkContext = ...

java apache-spark apache-spark-sql

вопрос задан: 17 January 2019 12:23

1

ответ

Лямбда на Питоне 3

У меня есть датафрейм с 2 столбцами, и я хочу разделить его на два массива. Я знаю, что с Python 2 я мог бы использовать это:

python apache-spark dataframe lambda

вопрос задан: 17 January 2019 11:58

1

ответ

Невозможно проглотить DF для эластичного поиска

Я читаю паркетный файл в spark-scala и занимаюсь вычислениями и фильтрацией. Я хочу проглотить полученный фрейм данных вasticsearch. Я пробовал следующие https: //www.elastic.co/guide/en / ...

elasticsearch apache-spark-sql apache-spark apache-spark-2.0

вопрос задан: 17 January 2019 11:11

1

ответ

Как проверить наличие папок, прежде чем читать в Spark?

Я новичок в Spark Framework и мне нужен совет. У меня такая структура папок. отчеты - 20180101 - 20180102 - 20180103 - GHWEI.csv - DSFSD.csv - GHWEI.csv.

java scala apache-spark

вопрос задан: 17 January 2019 11:09

1

ответ

Как проверить, включен ли необходимый ключ в JSON-искру Scala Dataframe

У меня есть датафрейм, как показано ниже. ID, details_Json 1 {"name": "Anne", "Age": "12", "country": "Denmark"} 2 {"name": "Zen", "Age": "24"} 3 {" имя ":" Фред " "Возраст": "20", "страна":" ...

sql scala apache-spark apache-spark-sql

вопрос задан: 17 January 2019 10:15

1

ответ

Не удалось запустить пример SparkPi на Kubernetes Spark 2.4.0

Я пытался просто запустить пример SparkPi на Kubernetes со Spark 2.4.0, и он, похоже, не ведет себя так, как в документации. Я следовал за гидом. Я построил образ ванильного докера ...

apache-spark kubernetes

вопрос задан: 17 January 2019 10:03

1

ответ

Spark 2.2 dataframe [scala]

OrderNo Status1 Status2 Status3 123 Завершено Ожидание Ожидание 456 Отклонено Завершено Завершено 789 Ожидание В процессе Завершено Выше приведена таблица, которая является ...

scala apache-spark apache-spark-sql apache-spark-2.2

вопрос задан: 17 January 2019 09:38

1

ответ

Удалить дубликаты из набора данных кортежей в Spark

У меня проблемы с удалением дублированных строк в наборе данных с набором данных [(LeftDs, RightDs)]. Попытка объединить два набора данных, например: val сопоставимыйDs = leftDs.joinWith (rightDs, fuzzyMatch (...

apache-spark dataset tuples scala

вопрос задан: 17 January 2019 09:32

1

ответ

более эффективно кэшировать фрейм данных в разделе или более

Я сохраняю dataFrame, и в интерфейсе spark я вижу, что этот dataframe разделен на мои 7 узлов. У моей искровой работы есть преобразования с широкими зависимостями. Может ли быть более производительным, чтобы ...

caching apache-spark

вопрос задан: 17 January 2019 08:43

1

ответ

Можем ли мы создать XML-файл с конкретным узлом с помощью Spark Scala?

У меня есть еще один вопрос о Спарк и Скала. Я хочу использовать эту технологию для получения данных и создания XML. Поэтому я хочу знать, возможно ли создание узла самостоятельно (не автоматическое создание) ...

scala apache-spark apache-spark-xml

вопрос задан: 17 January 2019 06:35

1

ответ

В какой ситуации лучше использовать coalesce vs repartition [duplicate]

У меня есть данные, которые разделены как статически разделены на данные и динамически разделены по странам. Так что на каждую дату у меня может быть до 180 разделов страны. Выглядит примерно так: / ...

scala apache-spark partitioning

вопрос задан: 17 January 2019 06:22

1

ответ

Как Паркет обрабатывает столбцы SparseVector?

Я очень новичок в PySpark. Я собирал tfidf и хочу сохранить его на диске в качестве промежуточного результата. Теперь оценка IDF дает мне представление SparseVector. Однако при попытке сохранить его как ...

pyspark parquet apache-spark

вопрос задан: 17 January 2019 03:10

1

ответ

Драйвер Spark ждет, пока все разделы завершат работу из rdd.foreachPartition, прежде чем продолжить?

Например, если у меня в драйвере Spark работает следующий код: rdd.foreachPartition (iterator = > myFunc (iterator)) val x = 1 Будет ли драйвер ждать завершения каждого раздела ...

scala apache-spark apache-spark-sql rdd

вопрос задан: 16 January 2019 23:52

1

ответ

Обращение к категориальным функциям с помощью одного горячего кодирования и векторного ассемблера против векторного индексатора

Скажем, у меня есть категорические особенности в кадре данных. Чтобы выполнить ML на фрейме данных, я делаю одно горячее кодирование для категориальных столбцов, используя OneHotEncoderEstimator (), а затем использую VectorAssembler () для ...

categorical-data apache-spark-ml scala apache-spark machine-learning

вопрос задан: 16 January 2019 18:20

1

ответ

Scala Spark - преобразование нескольких групповых уровней с использованием массивов в качестве входных данных

В моей программе Scala я сталкиваюсь с проблемой объединения результатов нескольких уровней GroupBy. Набор данных, который я использую, довольно большой. В качестве небольшого примера у меня есть датафрейм, который выглядит как ...

apache-spark-sql apache-spark scala

вопрос задан: 16 January 2019 17:02

1

ответ

Как прочитать файл в Spark (со scala), используя новый File ()?

Я искатель искры, и у меня есть к вам вопрос. Я хочу прочитать файл. Я вижу учебник, и они говорят, что сделать это: val rib = spark.read.format ("csv"). Option ("header", "true"). Load ("< a ...

scala apache-spark

вопрос задан: 16 January 2019 16:21

1

ответ

Группа SparkBy против перераспределения плюс mapPartitions

Мой набор данных ~ 20 миллионов строк, он занимает ~ 8 ГБ оперативной памяти. Я выполняю свою работу с 2 исполнителями, 10 ГБ ОЗУ на исполнителя, 2 ядра на исполнителя. Из-за дальнейших преобразований данные должны быть кэшированы все ...

apache-spark apache-spark-sql apache-spark-dataset

вопрос задан: 16 January 2019 14:43

1

ответ

Найдите общие строки в двух информационных кадрах и отметьте общие строки в первом

Я работаю над проектом прогнозирования ссылок в Spark с использованием Scala. Моя цель - найти две общие строки между двумя фреймами данных (один из них содержит основную правду всех ссылок) и пометить их в ...

scala apache-spark apache-spark-sql

вопрос задан: 16 January 2019 14:35

1

ответ

Оптимизация записи разделенных данных в S3 в spark sql

У меня около 700 ГБ данных, которые я читаю из HDFS при каждом запуске задания Spark. Моя работа читает эти данные, фильтрует около 60% данных, разделяет их следующим образом: val toBePublishedSignals = hiveCtx.sql ("...

apache-spark-sql amazon-s3 apache-spark scala

вопрос задан: 16 January 2019 14:03

1

ответ

Почему метод repartition () увеличивает размер файла на диске?

Озеро данных, с которым я работаю (df), имеет 2 ТБ данных и 20 000 файлов. Я хотел бы сжать набор данных в 2000 1 ГБ файлов. Если вы запустите df.coalesce (2000) и запишете на диск, озеро данных ...

apache-spark

вопрос задан: 16 January 2019 14:02

1

ответ

Определите UDF Spark Scala с параметром в качестве входного параметра

Написал следующий UDF с целью заставить его обрабатывать случай, когда один параметр не определен. Ниже приведен код: val addTimeFromCols: UserDefinedFunction = udf ((год: строка, месяц: строка, день: строка, ...

apache-spark user-defined-functions scala option

вопрос задан: 16 January 2019 11:20

1

ответ

как это & ldquo; Exchange hashpartitioning & rdquo; работает в искре

У меня есть набор данных, который я хочу записать, отсортированный в файлы паркета, чтобы впоследствии получить выгоду от запроса этих файлов через Spark, включая Predicate Pushdown. В настоящее время я использовал перераспределение ...

scala apache-spark apache-spark-sql partition partitioner

вопрос задан: 16 January 2019 11:20

1

ответ

Kafka Direct Stream в DataFrame не работает с окном

У меня есть данный кусок кода. Я запускаю это на Spark 2.3.1, используя Zeppelin 0.8.0 и org.apache.spark: spark-streaming-kafka-0-10_2.11: 2.3.1. stream.window (минуты (5), секунды (20)). foreachRDD {rdd ...

scala apache-spark spark-streaming rdd

вопрос задан: 16 January 2019 08:41