pyspark - список вопросов по программированию pyspark

0

ответов

Как преобразовать столбец со строковым типом в форму int во фрейме данных pyspark?

У меня есть датафрейм в pyspark. Некоторые из его числовых столбцов содержат 'nan', поэтому, когда я читаю данные и проверяю схему dataframe, эти столбцы будут иметь тип 'string'. Как я могу измениться ...

pyspark dataframe python

вопрос задан: 26 October 2017 13:43

0

ответов

AWS Glue to Redshift: возможно ли заменить, обновить или удалить данные?

Вот несколько ключевых моментов с точки зрения того, как у меня все настроено: у меня есть файлы CSV, загруженные на S3, и настройка сканера Glue для создания таблицы и схемы. У меня есть настройка работы Glue, которая записывает данные ...

aws-glue pyspark jdbc amazon-web-services

вопрос задан: 18 September 2017 15:18

0

ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...

python apache-spark pyspark apache-spark-sql spark-dataframe

вопрос задан: 22 June 2017 21:02

0

ответов

Как записать CSV-файл в один файл по pyspark

Я использую этот метод для записи файла CSV. Но он сгенерирует файл с несколькими файлами деталей. Это не то, что я хочу; Мне это нужно в одном файле. И я также нашел другой пост, использующий scala для форсирования всего ...

pyspark

вопрос задан: 23 May 2017 12:09

0

ответов

Фильтрация фрейма данных pyspark с использованием isin путем исключения [duplicate]

Я пытаюсь получить все строки в кадре данных, где значение столбца не находится в списке (поэтому фильтрация по исключению). Например: df = sqlContext.createDataFrame ([('1', 'a'), ('2', 'b'), ('3', 'b'), ('...

pyspark-sql pyspark apache-spark python

вопрос задан: 21 January 2017 14:22

0

ответов

Pyspark датафрейм LIKE оператор

Что эквивалентно в Pyspark для оператора LIKE? Например, я хотел бы сделать: SELECT * FROM таблица WHERE столбец LIKE "* somestring *"; ищу что-то легкое, как это (но это не ...

spark-dataframe pyspark

вопрос задан: 24 October 2016 14:25

0

ответов

Как запустить скрипт в PySpark

Я пытаюсь запустить скрипт в среде pyspark, но пока не смог. Как я могу запустить скрипт как python script.py, но в pyspark? Спасибо

pyspark apache-spark python

вопрос задан: 13 October 2016 19:26

0

ответов

Pyspark: показать гистограмму столбца фрейма данных

В фрейме данных pandas я использую следующий код для построения гистограммы столбца: my_df.hist (column = 'field_1') Есть ли что-то, что может достичь той же цели в фрейме данных pyspark? (Я нахожусь в ...

jupyter-notebook spark-dataframe pyspark python

вопрос задан: 25 August 2016 20:35

0

ответов

Spark 1.4 увеличивает maxResultSize память

Я использую Spark 1.4 для своих исследований и борюсь с настройками памяти. На моей машине 16 ГБ памяти, поэтому проблем нет, так как размер моего файла составляет всего 300 МБ. Хотя, когда я пытаюсь конвертировать ...

jupyter pyspark apache-spark memory python

вопрос задан: 7 July 2016 16:21

0

ответов

Конвертировать строку pyspark в формат даты

У меня есть дата-фрейм pyspark со строковым столбцом в формате MM-dd-yyyy, и я пытаюсь преобразовать его в столбец даты. Я пытался: df.select (to_date (df.STRING_COLUMN) .alias ('...

pyspark-sql apache-spark-sql pyspark apache-spark

вопрос задан: 28 June 2016 15:45

0

ответов

чтение файла в hdfs из pyspark

Я пытаюсь прочитать файл в моих hdfs. Вот демонстрация моей файловой структуры hadoop. hduser @ GVM: / usr / local / spark / bin $ hadoop fs -ls -R / drwxr-xr-x - супергруппа hduser 0 2016-03-06 17:28 / ...

apache-spark hdfs pyspark

вопрос задан: 7 March 2016 03:22

0

ответов

PySpark DataFrames - способ перечисления без преобразования в панды?

У меня есть очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи с определенным индексом. (или выберите группу записей с индексами ...

rdd pyspark bigdata apache-spark python

вопрос задан: 7 December 2015 19:07

0

ответов

Pyspark StructType не определен

Я пытаюсь построить схему для тестирования БД, и StructType, по-видимому, по какой-то причине не работает. Я следую за сайтом, и он не импортирует никаких дополнительных модулей. , ...

pyspark apache-spark python

вопрос задан: 23 June 2015 05:23

0

ответов

Spark DataFrame TimestampType - как получить значения года, месяца, дня из поля?

У меня есть Spark DataFrame с верхними строками take (5) следующим образом: [Row (date = datetime.datetime (1984, 1, 1, 0, 0), hour = 1, value = 638.55), Row (date = datetime.datetime (1984, 1, 1, 0, 0), час = 2, значение = 638,55), ...

pyspark apache-spark timestamp python

вопрос задан: 20 June 2015 22:14

0

ответов

Получить CSV для Spark DataFrame

Я использую Python на Spark и хотел бы получить CSV в dataframe. Документация по Spark SQL, как ни странно, не дает объяснения CSV в качестве источника. Я нашел Spark-CSV, однако я ...

pyspark apache-spark

вопрос задан: 29 April 2015 06:43