apache-spark - список вопросов по программированию apache-spark

0

ответов

Агрегирование нескольких столбцов с пользовательской функцией в Spark

Мне было интересно, если есть какой-то способ указать пользовательскую функцию агрегирования для фреймов данных искры по нескольким столбцам. У меня есть такая таблица типа (имя, предмет, цена): Джон | помидор | 1 ....

вопрос задан: 7 January 2019 15:36

0

ответов

Как рассчитать разницу дат в писпарке?

У меня есть такие данные: df = sqlContext.createDataFrame ([('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ( '1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), (...

apache-spark-sql pyspark dataframe apache-spark python

вопрос задан: 7 January 2019 05:57

0

ответов

Как разбить Вектор на столбцы - используя PySpark

Контекст: у меня есть DataFrame с 2 столбцами: слово и вектор. Где тип столбца "вектор" является VectorUDT. Пример: слово | вектор утверждать | [435,323,324,212 ...] И я хочу получить это: ...

apache-spark-ml apache-spark-sql pyspark apache-spark python

вопрос задан: 6 January 2019 21:59

0

ответов

Spark добавить новый столбец в dataframe со значением из предыдущей строки

Мне интересно, как я могу добиться следующего в исходном кадре данных Spark (Pyspark): + - + --- + | id | num | + - + --- + | 4 | 9.0 | + - + --- + | 3 | 7.0 | + - + --- + | 2 | 3.0 | + - + --- + | 1 | 5.0 | + - + --- + В результате ...

python apache-spark dataframe pyspark apache-spark-sql

вопрос задан: 6 January 2019 15:00

0

ответов

Как Spark пишет сжатый файл паркета?

Используя Apache Spark 1.6.4, с плагиномasticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7. Я запускаю этот ETL как ...

elasticsearch-hadoop hdfs apache-spark

вопрос задан: 22 December 2018 08:19

0

ответов

Разница между == и === в Scala, Spark

Я из Java и новичок в Scala. Я использую Scala и Spark. Но я не могу понять, где я использую == и ===. Может ли кто-нибудь дать мне знать, в каком сценарии мне нужно использовать эти два ...

scala apache-spark

вопрос задан: 22 December 2018 03:00

0

ответов

Определение UDF, который принимает массив объектов в Spark DataFrame?

При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны явно. В моем случае мне нужно ...

apache-spark-sql user-defined-functions dataframe apache-spark scala

вопрос задан: 17 December 2018 10:33

0

ответов

KStreams + Spark Streaming + Машинное обучение

Я делаю POC для запуска алгоритма машинного обучения на потоке данных. Моя первоначальная идея состояла в том, чтобы взять данные, использовать Spark Streaming -> Aggregate Data из нескольких таблиц -> запустить MLLib on Stream of ...

apache-spark machine-learning apache-kafka spark-streaming apache-kafka-streams

вопрос задан: 29 November 2018 10:57

0

ответов

Исключение Null Pointer в любое время, когда я пытаюсь выполнить операцию на фрейме Spark

Я использую pyspark в ноутбуке zeppelin, чтобы попытаться выполнить SQL-запрос в базе данных postgres. Я использую драйвер postgresql jdbc. Я могу успешно сделать это с некоторыми запросами, но у меня есть один ...

apache-spark dataframe nullpointerexception pyspark

вопрос задан: 13 July 2018 23:51

0

ответов

файл не создается при записи данных в csv

В приведенном ниже коде создается папка, но в ней нет файлов. Я использую два машинных искрового кластера и отправляю работу в автономном режиме. df.coalesce (1) .write.format ("com.databricks.spark.csv") .option ("...

apache-spark dataframe

вопрос задан: 13 July 2018 21:39

0

ответов

Неисправность портирования искрового кода Scala для PySpark

Я нашел пример кодирования строк Spark DataFrame для Avro в Scala. кредит: Spark Dataframe пишите на тему кафки в формате avro? Мои приложения написаны на Python, и у меня есть ...

scala apache-spark pyspark apache-spark-sql

вопрос задан: 13 July 2018 15:29

0

ответов

Искра Над улей над фениксом

Я использую Phoenix 4.9.0 с искровым 2.1.1, создали внешнюю таблицу в улье над фениксом, используя обработчик Хранения феникса. Я пытаюсь выполнить запрос с сервера Spark Thrift на улей. Всякий раз, когда я ...

apache-spark hive phoenix

вопрос задан: 13 July 2018 15:20

0

ответов

Ошибка оболочки Spark при создании DataFrame

Наличие данных CSV, как показано ниже (в разделе Sample data), пытается проанализировать данные с использованием искровой оболочки. Создал класс case: case class AadharDetails (Date: Int, Registrar: String, ...

scala apache-spark dataframe

вопрос задан: 13 July 2018 13:18

0

ответов

RDD takeSample Scala Spark

Посмотрите на метод: public java.lang.Object takeSample (boolean withReplacement, int num, long seed) Если я использую его как: RDD.takeSample (false, 5) I ...

scala apache-spark rdd

вопрос задан: 13 July 2018 12:56

0

ответов

Q: память sparkSql не может быть освобождена

У меня проблема, когда я использую sparkSession.catalog.chche, тогда я использую uncache, table drop, но, я обнаружил, что этап 4040, память не может быть освобождена

apache-spark

вопрос задан: 13 July 2018 11:08

0

ответов

Как запросить таблицу улей с помощью SparkSession в методе foreachPartition?

Я хочу запросить таблицу улья, используя SparkSession в методе foreachPartition. Любой может помочь? Очень ценю это!

apache-spark hive

вопрос задан: 13 July 2018 08:18

0

ответов

нулевые значения в некоторых столбцах фреймов данных, при чтении их из hbase

Я читаю данные из hbase, используя искру sql. один столбец содержит данные xml. когда размер xml мал, я могу читать правильные данные. но как только размер увеличивается слишком сильно, некоторые столбцы в dataframe ...

apache-spark hadoop hbase phoenix

вопрос задан: 13 July 2018 05:38

0

ответов

Не удается прочитать CSV-файл Apache Zeppelin 0.8

Я в настоящее время использую Apache Zeppelin 0.8. Я попытался загрузить CSV-файл следующим образом: val df = spark.read.option ("header", "true"). Option ("inferSchema", "true"). Csv ("/ path / to / csv / name. csv ") у меня тоже ...

csv apache-spark apache-zeppelin

вопрос задан: 5 July 2018 15:34

0

ответов

Включение нулевых значений в Apache Spark Join

Я хотел бы включить нулевые значения в соединение Apache Spark. Spark по умолчанию не содержит строк с нулем. Вот поведение Spark по умолчанию. val numbersDf = Seq (("123"), ("456"), (ноль), ...

apache-spark-sql join apache-spark scala sql

вопрос задан: 15 June 2018 22:31

0

ответов

Как избежать дублирования столбцов после объединения?

У меня есть два кадра данных со следующими столбцами: df1.columns // Array (ts, id, X1, X2) и df2.columns // Array (ts, id, Y1, Y2) После того, как я сделаю val df_combined = df1.join ( df2, seq (ts, id)) я заканчиваю ...

scala apache-spark apache-spark-sql

вопрос задан: 11 May 2018 09:35

0

ответов

Суммарная сумма Python Spark по группам с использованием DataFrame

Как рассчитать совокупную сумму для каждой группы, в частности, используя абстракцию DataFrame; а в PySpark? С примером набора данных следующим образом: df = sqlContext.createDataFrame ([(1,2, "a"), (3,2, "a"), (...

spark-dataframe pyspark apache-spark

вопрос задан: 20 February 2018 17:24

0

ответов

Ошибка sqlContext HiveDriver в SQLException: метод не поддерживается

Я пытался использовать sqlContext.read.format ("jdbc"). Options (driver = "org.apache.hive.jdbc.HiveDriver"), чтобы получить таблицу Hive в Spark без какого-либо успеха. Я провел исследование и прочитал ниже: Как ...

hortonworks-data-platform pyspark hive jdbc apache-spark

вопрос задан: 1 February 2018 11:32

0

ответов

В чем разница между операторами cube, rollup и groupBy?

Вопрос в значительной степени в названии. Я не могу найти подробную документацию относительно различий. Я заметил разницу, потому что при обмене вызовами функций cube и groupBy я получаю ...

sql apache-spark apache-spark-sql cube rollup

вопрос задан: 21 January 2018 16:16

0

ответов

Добавить баночки в Spark Job - spark-submit

Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации jars / executor / driver или ...

java scala apache-spark jar spark-submit

вопрос задан: 1 January 2018 05:59

0

ответов

«Контейнер убит YARN за превышение пределов памяти. 10,4 ГБ из 10,4 ГБ используемой физической памяти »в кластере EMR с 75 ГБ памяти

Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...

apache-spark emr amazon-emr bigdata

вопрос задан: 22 September 2017 17:48

0

ответов

Как предотвратить java.lang.OutOfMemoryError: пространство PermGen при компиляции Scala?

Я заметил странное поведение моего компилятора scala. Иногда при компиляции класса возникает ошибка OutOfMemoryError. Вот сообщение об ошибке: [info] Компиляция 1 исходного кода Scala в / Users / gruetter / ...

scala apache-spark memory-management sbt scalatra-sbt

вопрос задан: 30 August 2017 11:18

0

ответов

В чем разница между пакетами Spark ML и MLLIB

Я заметил, что в SparkML есть два класса LinearRegressionModel, один в ML и другой в пакете MLLib. Эти два реализованы совершенно по-разному - например, один из MLLib реализует ...

apache-spark apache-spark-mllib apache-spark-ml

вопрос задан: 19 August 2017 16:54

0

ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...

python apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 22 June 2017 21:02

0

ответов

Как конвертировать строки в JSON в Spark 2 Scala

Есть ли простой способ преобразования данного объекта строки в JSON? Нашел это о преобразовании всего Dataframe в вывод json: Spark Row в JSON Но я просто хочу преобразовать один ряд в json. Вот ...

json scala apache-spark json4s

вопрос задан: 23 May 2017 12:09

0

ответов

Почему Apache Spark считывает ненужные столбцы Parquet во вложенных структурах?

Моя команда создает процесс ETL для загрузки необработанных текстовых файлов с разделителями в «озеро данных» на основе Parquet с использованием Spark. Одним из обещаний хранилища столбцов Parquet является то, что запрос будет читать только ...

parquet spark-dataframe apache-spark

вопрос задан: 23 May 2017 12:02