apache-spark - список вопросов по программированию apache-spark

1

ответ

Использование Window.rowsBetween в искровой scala [дубликат]

Я пытаюсь создать окно для определенного количества строк из CSV-файла, например следующее: Например, мне нужно подсчитать, сколько классов в окне размером 5 строк получают следующие результаты: ...

scala apache-spark window

вопрос задан: 20 October 2015 00:59

1

ответ

Новый столбец на основе комбинации из 2 списков искры [дубликат]

Структура структуры данных: | main_id | ID | CreatedBy | + ------------ + -------------------- + --------------- ----- + | 1 | [10,20,30] | [999888777 | | 2 ...

scala apache-spark apache-spark-sql

вопрос задан: 19 October 2015 17:57

1

ответ

Spark scala Разверните несколько вложенных столбцов xml в разные столбцы при получении данных из таблицы hive в формате паркета [duplicate]

Я пытаюсь использовать это на следующем df, но не знаю, как spark-shell -jars com.databricks_spark-xml_2.10-0.2.0.jar import org.json._ import com.databricks.spark.xml.XmlReader val parq = ...

xml scala apache-spark hadoop parquet

вопрос задан: 19 October 2015 17:57

1

ответ

Переместить строку в столбец в Spark [duplicate]

Любой может помочь мне с этим транспозицией в Spark / Scala, пожалуйста, у меня есть следующая таблица + ------ + -------------- + ------- ---- + -------- + --------- + --------------------- + | userId | ...

scala apache-spark row

вопрос задан: 19 October 2015 17:57

1

ответ

Прочтите json, используя pypair, и назначьте значение keypair на основе индекса массива [duplicate]

У меня есть формат json, например {"change": [{"kind": "insert", "schema": "public", "table": "test123", "columnnames": ["name", "id"] , "typestypes": ["character differenting (20)", "integer"], "columnvalues": ["mani", 3]}]} ...

python arrays apache-spark pyspark rdd

вопрос задан: 19 October 2015 17:57

1

ответ

получение данных из hdfs и что-то не так, когда я хочу иметь дело с данными [duplicate]

Я кодирую идею и использую spark-submit для запуска. Я получаю данные из hdfs, а затем разбираюсь с ним. Но я не понимаю, почему это происходит? Есть еще один простой код, который не показан. Я уверен, что они ...

scala apache-spark hadoop

вопрос задан: 12 October 2015 18:21

1

ответ

Можем ли мы предоставить нашу собственную функцию в качестве условия соединения для RDD или Dataframes в Spark? [Дубликат]

Использование Apache Spark 1.6.0 на CDH. У меня есть RDD, который включает столбец Name. У меня также есть список имен моих клиентов в отдельном Dataframe. Мне нужно присоединиться к этим двум, но это не будет точное совпадение ...

scala apache-spark join spark-dataframe rdd

вопрос задан: 5 October 2015 16:14

1

ответ

Разделение и распределение Spark RDD [дубликат]

Как Spark распространяет данные? Что происходит внутри, когда Spark запускает SparkContext.textFile («путь к файлу»)? Он создает RDD, который мы знаем, но он распространяется по кластеру или RDD ...

apache-spark rdd

вопрос задан: 26 September 2015 12:29

1

ответ

Как писать & ldquo; например, «% ABC%» & rdquo; в Spark [дубликат]

Как написать следующий фильтр в Spark TYPE_FIELD, например, «% ABC%». Это то же самое, что и df.filter ($ "TYPE_FIELD" === "ABC")?

scala apache-spark spark-dataframe

вопрос задан: 23 September 2015 16:25

1

ответ

Запросить внешний фрейм данных в карте Spark Streaming или foreachRDD [дубликат]

Я пытаюсь изучить Spark, и у меня возникают проблемы с потоком Apache Spark. У меня есть dataRrame userRecs со списком фильмов, рекомендованных для каждого UserID и другого фреймворка dfMovies с помощью ...

python apache-spark pyspark spark-streaming

вопрос задан: 17 September 2015 00:54

1

ответ

Spark: ERROR LiveListenerBus: SparkListenerBus уже остановил [дубликат]

Я получаю эту ошибку при отправке заданий Spark как в режиме клиента, так и в кластере? В основном я пытаюсь объединить тысячи файлов событий в один файл, используя sc.repartition. В конце я могу ...

apache-spark

вопрос задан: 1 September 2015 20:48

1

ответ

Отладка Pyspark в кластере [дубликат]

Если задания pyspark терпят неудачу в кластере, как отлаживать? Должны ли мы перезапустить весь процесс приложения с самого начала или его можно перезапустить с неудачного шага?

apache-spark pyspark amazon-emr spark-submit

вопрос задан: 21 August 2015 14:29

1

ответ

Отладка локального искрового исполнителя в pycharm [duplicate]

Я хочу выполнить работу искрового исполнителя, работающего локально на моей машине, от Pycharm. Я использую явные функциональные возможности в виде dataset.foreachPartition (f), и я хочу видеть ...

apache-spark pyspark pycharm

вопрос задан: 21 August 2015 14:29

1

ответ

Отладка сценария Python / Spark и остановка в точке останова для метода foreachPartition [duplicate]

Как остановиться в точке останова при отладке моего сценария искро-питона и вызове функции foreachPartition? Также я попытался установить искровой мастер локальный [1], предполагая, что он работает с одним потоком.

python apache-spark intellij-idea

вопрос задан: 21 August 2015 14:29

1

ответ

как сделать глобальный список в искры Apache, который будет распространен на разные узлы [duplicate]

Есть ли какой-либо глобальный список, такой как переменная в искры Apache, которая может быть распределена между узлами. Аккумулятор - это один из вариантов, но он является переменной счетчика и, как я читал в документах, это просто целочисленная перемен

apache-spark pyspark

вопрос задан: 17 August 2015 19:47

1

ответ

Использование java.util.date в искровом наборе данных [дубликат]

Я пытаюсь присоединиться к двум наборам искровых данных, чтобы получить один набор данных. мой первый набор данных создается из класса java bean, созданного из базы данных Cassandra: это мой java-компонент, и мне не разрешено ...

java apache-spark apache-spark-sql

вопрос задан: 9 July 2015 08:31

1

ответ

Как разрешить связь master / detail (parent / child) с pyspark с использованием порядка входных данных? [Дубликат]

надеюсь, вы могли бы мне помочь. Я довольно новичок в Spark, и я ищу решение, как решить взаимоотношения с основными деталями из данных, которые я получаю. Входные данные выглядят как A; A Thing ...

apache-spark pyspark

вопрос задан: 5 July 2015 11:35

1

ответ

Как преобразовать определенные строки в столбец в отдельный столбец с помощью pyspark и перечислить каждую строку с увеличением числового индекса? [Дубликат]

Я борется за то, чтобы придумать разумное решение для форматирования моих данных в соответствующую структуру для ввода в фреймворк pyspark. Я новичок в pyspark, поэтому, возможно, я чего-то не хватает ...

apache-spark pyspark spark-dataframe rdd

вопрос задан: 5 July 2015 11:35

1

ответ

Что произойдет, если вы посчитаете дважды? [Дубликат]

Что происходит в искры, когда вы пытаетесь сделать что-то вроде этого: def myMethod (myDF: Dataframe): Unit = {myDF .... transform .... myDF.count () # 1 myDF.count () # 2} Я понимаю ...

scala apache-spark

вопрос задан: 2 July 2015 09:22

1

ответ

PySpark: Преобразование Spark DataFrame в Pandas Dataframe [альтернатива для .toPandas ()] [duplicate]

У меня огромный кадр искровых данных со многими столбцами (PySpark). [количество столбцов около 100 и количество строк более 5000000]. Я хочу преобразовать этот фрейм данных в кадр данных Pandas. Однако, ...

pandas apache-spark dataframe pyspark

вопрос задан: 22 June 2015 14:55

1

ответ

Код Java Spark для чтения файла из местоположения s3 [дубликат]

Я новичок в искровой Java-логике. У меня есть требование написать программу для чтения файла / каталога из местоположения S3. Как я могу загрузить этот файл / каталог в искровых RDD? Любая помощь будет ...

java apache-spark amazon-s3

вопрос задан: 6 May 2015 13:36

1

ответ

Почему mergeValue требуется в CombineByKey [duplicate]

Функция combByKey в искровом режиме выполняет три функции: combByKey (createCombiner, mergeValue, mergeCombiners). Результат mergeValue может быть сгенерирован с помощью createCombiner и ...

performance apache-spark rdd

вопрос задан: 25 March 2015 08:05

1

ответ

twitterStream не является членом org.apache.spark.streaming.StreamingContext? почему так? [Дубликат]

Я пытаюсь найти самые популярные хэштеги, получая данные twitter, но я получаю это значение ошибки. TwitterStream не является членом org.apache.spark.streaming.StreamingContext val ...

scala apache-spark twitter-oauth twitter4j

вопрос задан: 10 March 2015 07:01

1

ответ

Передача пользовательских параметров скрипту scala поверх DataStax C * [duplicate]

У нас есть логика ETL для запуска преобразований по Spark с использованием Scala поверх стека DSE. Мы хотим параметризовать этот скрипт Scala. Например, ввод «ABC» будет принят в скрипте и ...

scala apache-spark cassandra

вопрос задан: 10 December 2014 15:31

1

ответ

Функция на карте не выполняется [дубликат]

Я хочу выполнить функцию «выполнить» внутри карты в csvLine, но она не выполняется из neo4j.v1 import GraphDatabase, basic_auth driver = GraphDatabase.driver («bolt: // localhost», auth = ...

apache-spark neo4j pyspark

вопрос задан: 24 June 2014 15:12

1

ответ

SparkSQL (Thrift Server) TTransportException после 11 минут при запуске select * на 30-миллионной таблице строк [дубликат]

Env: hive 2.1.1, указывающий на таблицы на S3 Spark 2.3.0 (автономный режим) Hadoop 2.8.3 без hdfs Используя beeline для запроса sparksql (порт 10015, который был открыт службой бережливости), выберите * на таблицах с ...

apache-spark hadoop hive thrift

вопрос задан: 31 May 2012 11:02

1

ответ

Некоторые классы в scala - Сопоставление карты в искровом [дубликат]

Это мой код. val ss = SparkSession.builder () .appName ("broadcastvariable") .master ("local") .getOrCreate () val sq = ss ....

scala apache-spark

вопрос задан: 22 February 2012 11:15

0

ответов

pyspark присоединиться к нескольким условиям

Я хочу спросить, есть ли у вас какие-либо идеи о том, как я могу указать много условий в pyspark, когда я использую .join () Пример: с hive: query = "select a.NUMCNT, b.NUMCNT как RNUMCNT, a.POLE, b. Полюс как RPOLE, ....

apache-spark pyspark

вопрос задан: 30 July 2019 09:55

0

ответов

Как преобразовать массивоподобную строку в массив в spark-dataframe (Scala api)?

У меня следующий искровой фрейм данных: опубликованные данные 2019-05-15T10: 37: 22 + 00: 00 [{"@id": "1", "@ type": "type", "category": "cat"} , {"@ id": "2", "@ type": "type", "category": "cat1"}] со следующим ...

scala apache-spark apache-spark-sql

вопрос задан: 19 May 2019 13:03

0

ответов

Как отключить ведение журнала INFO в Spark?

Я установил Spark с помощью руководства AWS EC2, и я могу нормально запустить программу с помощью сценария bin / pyspark, чтобы перейти к приглашению spark, а также успешно выполнить быстрый запуск. Однако я ...

apache-spark pyspark scala python hadoop

вопрос задан: 11 May 2019 00:48