0
ответов

Почему Apache Spark считывает ненужные столбцы Parquet во вложенных структурах?

Моя команда создает процесс ETL для загрузки необработанных текстовых файлов с разделителями в «озеро данных» на основе Parquet с использованием Spark. Одним из обещаний хранилища столбцов Parquet является то, что запрос будет читать только ...
вопрос задан: 23 May 2017 12:02
0
ответов

Как конвертировать DataFrame в RDD в Scala?

Может кто-нибудь поделиться, как можно конвертировать данные в RDD?
вопрос задан: 2 November 2016 09:46
0
ответов

Pyspark датафрейм LIKE оператор

Что эквивалентно в Pyspark для оператора LIKE? Например, я хотел бы сделать: SELECT * FROM таблица WHERE столбец LIKE "* somestring *"; ищу что-то легкое, как это (но это не ...
вопрос задан: 24 October 2016 14:25
0
ответов

Pyspark: показать гистограмму столбца фрейма данных

В фрейме данных pandas я использую следующий код для построения гистограммы столбца: my_df.hist (column = 'field_1') Есть ли что-то, что может достичь той же цели в фрейме данных pyspark? (Я нахожусь в ...
вопрос задан: 25 August 2016 20:35
0
ответов

Spark - Генерация случайных чисел

Я написал метод, который должен учитывать случайное число для моделирования распределения Бернулли. Я использую random.nextDouble для генерации числа от 0 до 1, а затем принимаю решение на основе этого ...
вопрос задан: 6 April 2016 15:03