apache-spark - список вопросов по программированию apache-spark

3

ответа

Размер массива Scala by byte [duplicate]

У меня очень большой массив с 10 кадрами данных внутри белого цвета содержит около тысячи входных данных (из набора данных улья). как я могу узнать размер этого массива по байтам?

вопрос задан: 27 July 2016 14:10

3

ответа

Чтение нескольких паркетных файлов из S3 Bucket [duplicate]

Я пытаюсь прочитать несколько паркетных файлов из ведра s3, содержащего данные за несколько дней. s3 путь: s3n: // & lt; s3path & gt; /dt=*/*.snappy.parquet Код Pyspark для чтения данных из нескольких ...

apache-spark amazon-s3 pyspark

вопрос задан: 16 May 2016 15:09

3

ответа

Spark scala: построить двоичные векторы из категорий [duplicate]

У меня есть предопределенный список категорий. Около 20 из них. И DataFrame элементов, каждый из которых имеет до 3 категорий. И мне интересно, существует ли какой-либо эффективный встроенный метод для построения ...

scala apache-spark

вопрос задан: 25 April 2016 10:26

3

ответа

Файловый фрейм PySpark - Замените последовательные значения NaN в столбце с предыдущим допустимым значением [duplicate]

[Я новичок в PySpark. Если это дубликат для какого-то существующего вопроса, хотя я не могу его найти, укажите мне. Спасибо.] У меня есть набор данных, где из каждых четырех последовательных значений сначала ...

apache-spark dataframe pyspark nan

вопрос задан: 4 April 2016 15:35

3

ответа

Использование JDBC в Apache Spark для подключения к MS SQL Server 2008 R2 [дубликат]

У меня возникли проблемы с подключением к SQL Server с помощью Spark. Это код python, который я использую. из импорта pyspark SparkContext, SparkConf из pyspark.sql импортирует SparkSession, SQLContext, Row print ("...

sql-server apache-spark jdbc pyspark

вопрос задан: 13 March 2016 14:08

3

ответа

Как вставить данные о кустах в таблицу Teradata с использованием искровой оболочки [duplicate]

Я пытаюсь экспортировать вывод запроса saprkSQL в Teradata. Я могу подключить терадату от искры с помощью драйвера JDBC и запустить некоторые запросы по уже существующим таблицам в Teradata, но я не могу ...

apache-spark hive pyspark apache-spark-sql teradata

вопрос задан: 13 March 2016 14:08

3

ответа

Pyspark - обновление определенных столбцов в таблице mysql [дубликат]

Я пытаюсь вставить и обновить некоторые данные в RDS MySql, я предпочитаю выполнять upsert в моем pyspark & amp; используя промежуточную таблицу. Может кто-нибудь, пожалуйста, проведет меня с логикой для промежуточной таблицы, обновления ...

python mysql apache-spark pyspark amazon-rds

вопрос задан: 25 February 2016 19:02

3

ответа

Как обновить таблицу через искровое sql? [Дубликат]

table like: id, name.salary 1, abc, 25 2, acd, 45 then, если я хочу обновить его через искру df.write .mode (SaveMode.Append) .jdbc (conn_str, tableName, prop), но suing saveMode мы не могу ...

apache-spark hive

вопрос задан: 25 February 2016 19:02

3

ответа

Обновление таблицы mysql с использованием Spark [duplicate]

Возможно ли обновить таблицу mysql с помощью jdbc в искровом режиме? Если нет, то, что нужно для обновления?

apache-spark pyspark pyspark-sql

вопрос задан: 25 February 2016 19:02

3

ответа

PySpark: порядок извлечения и фильтрации данных для эффективности (& gt; 1 бит записей) [дубликат]

Мне любопытно, какой из приведенных ниже случаев более эффективен, учитывая, что таблица1 имеет более 1 млрд записей. Любая помощь приветствуется. df = sqlContext.sql ("select colA, colB, colC из таблицы1 где (colA ...

python apache-spark hadoop pyspark apache-spark-sql

вопрос задан: 7 February 2016 19:15

3

ответа

Spark SQL-Running Query в HiveContext vs DataFrame [дубликат]

Я изучаю Spark SQL, и я экспериментировал с языком запросов Hive (HQL) и DataFrames. Некоторое время назад я провел эксперимент, сравнивающий производительность выполнения запросов с помощью HiveContext ...

scala apache-spark hive apache-spark-sql

вопрос задан: 7 February 2016 19:15

3

ответа

как запросить большой файл json в столбце hive [duplicate]

У меня есть таблица hive содержит 3 столбца, один из них имеет большой json-файл. column.id, column.contextid, column.content 517229, exa, "{" my_array ": [{" col1 ":" col1 "," col2 ": 1}, {" col1 ":" col11 "," col2 " : 11}, { "col1":»...

apache-spark apache-spark-sql apache-spark-dataset