0
ответов

Агрегирование нескольких столбцов с пользовательской функцией в Spark

Мне было интересно, если есть какой-то способ указать пользовательскую функцию агрегирования для фреймов данных искры по нескольким столбцам. У меня есть такая таблица типа (имя, предмет, цена): Джон | помидор | 1 ....
вопрос задан: 7 January 2019 15:36
0
ответов

Как рассчитать разницу дат в писпарке?

У меня есть такие данные: df = sqlContext.createDataFrame ([('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ( '1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), (...
вопрос задан: 7 January 2019 05:57
0
ответов

Как разбить Вектор на столбцы - используя PySpark

Контекст: у меня есть DataFrame с 2 столбцами: слово и вектор. Где тип столбца "вектор" является VectorUDT. Пример: слово | вектор утверждать | [435,323,324,212 ...] И я хочу получить это: ...
вопрос задан: 6 January 2019 21:59
0
ответов

Spark добавить новый столбец в dataframe со значением из предыдущей строки

Мне интересно, как я могу добиться следующего в исходном кадре данных Spark (Pyspark): + - + --- + | id | num | + - + --- + | 4 | 9.0 | + - + --- + | 3 | 7.0 | + - + --- + | 2 | 3.0 | + - + --- + | 1 | 5.0 | + - + --- + В результате ...
вопрос задан: 6 January 2019 15:00
0
ответов

Как Spark пишет сжатый файл паркета?

Используя Apache Spark 1.6.4, с плагиномasticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7. Я запускаю этот ETL как ...
вопрос задан: 22 December 2018 08:19
0
ответов

Разница между == и === в Scala, Spark

Я из Java и новичок в Scala. Я использую Scala и Spark. Но я не могу понять, где я использую == и ===. Может ли кто-нибудь дать мне знать, в каком сценарии мне нужно использовать эти два ...
вопрос задан: 22 December 2018 03:00
0
ответов

Определение UDF, который принимает массив объектов в Spark DataFrame?

При работе с DataFrames Spark пользовательские функции (UDF) необходимы для отображения данных в столбцах. UDF требуют, чтобы типы аргументов были указаны явно. В моем случае мне нужно ...
вопрос задан: 17 December 2018 10:33
0
ответов

KStreams + Spark Streaming + Машинное обучение

Я делаю POC для запуска алгоритма машинного обучения на потоке данных. Моя первоначальная идея состояла в том, чтобы взять данные, использовать Spark Streaming -> Aggregate Data из нескольких таблиц -> запустить MLLib on Stream of ...
вопрос задан: 29 November 2018 10:57
0
ответов

Исключение Null Pointer в любое время, когда я пытаюсь выполнить операцию на фрейме Spark

Я использую pyspark в ноутбуке zeppelin, чтобы попытаться выполнить SQL-запрос в базе данных postgres. Я использую драйвер postgresql jdbc. Я могу успешно сделать это с некоторыми запросами, но у меня есть один ...
вопрос задан: 13 July 2018 23:51
0
ответов

файл не создается при записи данных в csv

В приведенном ниже коде создается папка, но в ней нет файлов. Я использую два машинных искрового кластера и отправляю работу в автономном режиме. df.coalesce (1) .write.format ("com.databricks.spark.csv") .option ("...
вопрос задан: 13 July 2018 21:39
0
ответов

Неисправность портирования искрового кода Scala для PySpark

Я нашел пример кодирования строк Spark DataFrame для Avro в Scala. кредит: Spark Dataframe пишите на тему кафки в формате avro? Мои приложения написаны на Python, и у меня есть ...
вопрос задан: 13 July 2018 15:29
0
ответов

Искра Над улей над фениксом

Я использую Phoenix 4.9.0 с искровым 2.1.1, создали внешнюю таблицу в улье над фениксом, используя обработчик Хранения феникса. Я пытаюсь выполнить запрос с сервера Spark Thrift на улей. Всякий раз, когда я ...
вопрос задан: 13 July 2018 15:20
0
ответов

Ошибка оболочки Spark при создании DataFrame

Наличие данных CSV, как показано ниже (в разделе Sample data), пытается проанализировать данные с использованием искровой оболочки. Создал класс case: case class AadharDetails (Date: Int, Registrar: String, ...
вопрос задан: 13 July 2018 13:18
0
ответов

RDD takeSample Scala Spark

Посмотрите на метод: public java.lang.Object takeSample (boolean withReplacement, int num, long seed) Если я использую его как: RDD.takeSample (false, 5) I ...
вопрос задан: 13 July 2018 12:56
0
ответов

Q: память sparkSql не может быть освобождена

У меня проблема, когда я использую sparkSession.catalog.chche, тогда я использую uncache, table drop, но, я обнаружил, что этап 4040, память не может быть освобождена
вопрос задан: 13 July 2018 11:08
0
ответов

Как запросить таблицу улей с помощью SparkSession в методе foreachPartition?

Я хочу запросить таблицу улья, используя SparkSession в методе foreachPartition. Любой может помочь? Очень ценю это!
вопрос задан: 13 July 2018 08:18
0
ответов

нулевые значения в некоторых столбцах фреймов данных, при чтении их из hbase

Я читаю данные из hbase, используя искру sql. один столбец содержит данные xml. когда размер xml мал, я могу читать правильные данные. но как только размер увеличивается слишком сильно, некоторые столбцы в dataframe ...
вопрос задан: 13 July 2018 05:38
0
ответов

Не удается прочитать CSV-файл Apache Zeppelin 0.8

Я в настоящее время использую Apache Zeppelin 0.8. Я попытался загрузить CSV-файл следующим образом: val df = spark.read.option ("header", "true"). Option ("inferSchema", "true"). Csv ("/ path / to / csv / name. csv ") у меня тоже ...
вопрос задан: 5 July 2018 15:34
0
ответов

Включение нулевых значений в Apache Spark Join

Я хотел бы включить нулевые значения в соединение Apache Spark. Spark по умолчанию не содержит строк с нулем. Вот поведение Spark по умолчанию. val numbersDf = Seq (("123"), ("456"), (ноль), ...
вопрос задан: 15 June 2018 22:31
0
ответов

Как избежать дублирования столбцов после объединения?

У меня есть два кадра данных со следующими столбцами: df1.columns // Array (ts, id, X1, X2) и df2.columns // Array (ts, id, Y1, Y2) После того, как я сделаю val df_combined = df1.join ( df2, seq (ts, id)) я заканчиваю ...
вопрос задан: 11 May 2018 09:35
0
ответов

Суммарная сумма Python Spark по группам с использованием DataFrame

Как рассчитать совокупную сумму для каждой группы, в частности, используя абстракцию DataFrame; а в PySpark? С примером набора данных следующим образом: df = sqlContext.createDataFrame ([(1,2, "a"), (3,2, "a"), (...
вопрос задан: 20 February 2018 17:24
0
ответов

Ошибка sqlContext HiveDriver в SQLException: метод не поддерживается

Я пытался использовать sqlContext.read.format ("jdbc"). Options (driver = "org.apache.hive.jdbc.HiveDriver"), чтобы получить таблицу Hive в Spark без какого-либо успеха. Я провел исследование и прочитал ниже: Как ...
вопрос задан: 1 February 2018 11:32
0
ответов

В чем разница между операторами cube, rollup и groupBy?

Вопрос в значительной степени в названии. Я не могу найти подробную документацию относительно различий. Я заметил разницу, потому что при обмене вызовами функций cube и groupBy я получаю ...
вопрос задан: 21 January 2018 16:16
0
ответов

Добавить баночки в Spark Job - spark-submit

Правда ... это обсуждалось довольно много. Однако есть много двусмысленности и некоторые ответы предоставлены ... включая дублирование ссылок на jar в конфигурации jars / executor / driver или ...
вопрос задан: 1 January 2018 05:59
0
ответов

«Контейнер убит YARN за превышение пределов памяти. 10,4 ГБ из 10,4 ГБ используемой физической памяти »в кластере EMR с 75 ГБ памяти

Я использую кластер Spark с 5 узлами на AWS EMR каждого размера m3.xlarge (1 ведущий 4 подчиненных). Я успешно просмотрел сжатый CSV-файл размером 146 Мб bzip2 и в результате получил идеально агрегированный результат. ...
вопрос задан: 22 September 2017 17:48
0
ответов

Как предотвратить java.lang.OutOfMemoryError: пространство PermGen при компиляции Scala?

Я заметил странное поведение моего компилятора scala. Иногда при компиляции класса возникает ошибка OutOfMemoryError. Вот сообщение об ошибке: [info] Компиляция 1 исходного кода Scala в / Users / gruetter / ...
вопрос задан: 30 August 2017 11:18
0
ответов

В чем разница между пакетами Spark ML и MLLIB

Я заметил, что в SparkML есть два класса LinearRegressionModel, один в ML и другой в пакете MLLib. Эти два реализованы совершенно по-разному - например, один из MLLib реализует ...
вопрос задан: 19 August 2017 16:54
0
ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...
вопрос задан: 22 June 2017 21:02
0
ответов

Как конвертировать строки в JSON в Spark 2 Scala

Есть ли простой способ преобразования данного объекта строки в JSON? Нашел это о преобразовании всего Dataframe в вывод json: Spark Row в JSON Но я просто хочу преобразовать один ряд в json. Вот ...
вопрос задан: 23 May 2017 12:09
0
ответов

Почему Apache Spark считывает ненужные столбцы Parquet во вложенных структурах?

Моя команда создает процесс ETL для загрузки необработанных текстовых файлов с разделителями в «озеро данных» на основе Parquet с использованием Spark. Одним из обещаний хранилища столбцов Parquet является то, что запрос будет читать только ...
вопрос задан: 23 May 2017 12:02