0
ответов

Как преобразовать столбец со строковым типом в форму int во фрейме данных pyspark?

У меня есть датафрейм в pyspark. Некоторые из его числовых столбцов содержат 'nan', поэтому, когда я читаю данные и проверяю схему dataframe, эти столбцы будут иметь тип 'string'. Как я могу измениться ...
вопрос задан: 26 October 2017 13:43
0
ответов

AWS Glue to Redshift: возможно ли заменить, обновить или удалить данные?

Вот несколько ключевых моментов с точки зрения того, как у меня все настроено: у меня есть файлы CSV, загруженные на S3, и настройка сканера Glue для создания таблицы и схемы. У меня есть настройка работы Glue, которая записывает данные ...
вопрос задан: 18 September 2017 15:18
0
ответов

Обновление столбца данных в спарк

Глядя на новый API-интерфейс Spark Dataframe, неясно, можно ли изменить столбцы DataFrame. Как мне изменить значение в строке x столбца y кадра данных? В пандах это было бы ...
вопрос задан: 22 June 2017 21:02
0
ответов

Как записать CSV-файл в один файл по pyspark

Я использую этот метод для записи файла CSV. Но он сгенерирует файл с несколькими файлами деталей. Это не то, что я хочу; Мне это нужно в одном файле. И я также нашел другой пост, использующий scala для форсирования всего ...
вопрос задан: 23 May 2017 12:09
0
ответов

Фильтрация фрейма данных pyspark с использованием isin путем исключения [duplicate]

Я пытаюсь получить все строки в кадре данных, где значение столбца не находится в списке (поэтому фильтрация по исключению). Например: df = sqlContext.createDataFrame ([('1', 'a'), ('2', 'b'), ('3', 'b'), ('...
вопрос задан: 21 January 2017 14:22
0
ответов

Pyspark датафрейм LIKE оператор

Что эквивалентно в Pyspark для оператора LIKE? Например, я хотел бы сделать: SELECT * FROM таблица WHERE столбец LIKE "* somestring *"; ищу что-то легкое, как это (но это не ...
вопрос задан: 24 October 2016 14:25
0
ответов

Как запустить скрипт в PySpark

Я пытаюсь запустить скрипт в среде pyspark, но пока не смог. Как я могу запустить скрипт как python script.py, но в pyspark? Спасибо
вопрос задан: 13 October 2016 19:26
0
ответов

Pyspark: показать гистограмму столбца фрейма данных

В фрейме данных pandas я использую следующий код для построения гистограммы столбца: my_df.hist (column = 'field_1') Есть ли что-то, что может достичь той же цели в фрейме данных pyspark? (Я нахожусь в ...
вопрос задан: 25 August 2016 20:35
0
ответов

Spark 1.4 увеличивает maxResultSize память

Я использую Spark 1.4 для своих исследований и борюсь с настройками памяти. На моей машине 16 ГБ памяти, поэтому проблем нет, так как размер моего файла составляет всего 300 МБ. Хотя, когда я пытаюсь конвертировать ...
вопрос задан: 7 July 2016 16:21
0
ответов

Конвертировать строку pyspark в формат даты

У меня есть дата-фрейм pyspark со строковым столбцом в формате MM-dd-yyyy, и я пытаюсь преобразовать его в столбец даты. Я пытался: df.select (to_date (df.STRING_COLUMN) .alias ('...
вопрос задан: 28 June 2016 15:45
0
ответов

чтение файла в hdfs из pyspark

Я пытаюсь прочитать файл в моих hdfs. Вот демонстрация моей файловой структуры hadoop. hduser @ GVM: / usr / local / spark / bin $ hadoop fs -ls -R / drwxr-xr-x - супергруппа hduser 0 2016-03-06 17:28 / ...
вопрос задан: 7 March 2016 03:22
0
ответов

PySpark DataFrames - способ перечисления без преобразования в панды?

У меня есть очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи с определенным индексом. (или выберите группу записей с индексами ...
вопрос задан: 7 December 2015 19:07
0
ответов

Pyspark StructType не определен

Я пытаюсь построить схему для тестирования БД, и StructType, по-видимому, по какой-то причине не работает. Я следую за сайтом, и он не импортирует никаких дополнительных модулей. , ...
вопрос задан: 23 June 2015 05:23
0
ответов

Spark DataFrame TimestampType - как получить значения года, месяца, дня из поля?

У меня есть Spark DataFrame с верхними строками take (5) следующим образом: [Row (date = datetime.datetime (1984, 1, 1, 0, 0), hour = 1, value = 638.55), Row (date = datetime.datetime (1984, 1, 1, 0, 0), час = 2, значение = 638,55), ...
вопрос задан: 20 June 2015 22:14
0
ответов

Получить CSV для Spark DataFrame

Я использую Python на Spark и хотел бы получить CSV в dataframe. Документация по Spark SQL, как ни странно, не дает объяснения CSV в качестве источника. Я нашел Spark-CSV, однако я ...
вопрос задан: 29 April 2015 06:43