rdd - список вопросов по программированию rdd

0

ответов

элемент concat two array [row] в карте

У меня есть Array [Row] Я использую класс case, чтобы отобразить его, чтобы получить класс case в RDD MyClass (string, long) sparkSession.sparkContext. распараллелить (row.map (r1 = > MyClass (r1.getString (0) .concat (r1 ....

вопрос задан: 3 March 2019 22:11

0

ответов

Почему блоки в одном и том же СДР не могут быть выселены?

В функции evictBlocksToFreeSpace он говорит: Попробуйте выселить блоки, чтобы освободить определенное количество места для хранения определенного блока. Может потерпеть неудачу, если блок больше нашей памяти или ...

rdd scala apache-spark

вопрос задан: 17 January 2019 04:43

0

ответов

Расчет размера СДР в Java

Мне нужно рассчитать размер RDD в Java. В Scala это было довольно просто, и я использовал следующий код: rdd.map (_. GetBytes ("UTF-8"). Length.toLong.reduce (_ + _), который дает правильный размер. В ...

apache-spark rdd java

вопрос задан: 16 January 2019 10:05

0

ответов

Как создать DataFrame из текстового файла в Spark

У меня есть текстовый файл в HDFS, и я хочу преобразовать его в фрейм данных в Spark. Я использую Spark Context для загрузки файла, а затем пытаюсь сгенерировать отдельные столбцы из этого файла. val myFile = ...

rdd apache-spark-sql dataframe apache-spark scala

вопрос задан: 7 January 2019 17:34

0

ответов

RDD takeSample Scala Spark

Посмотрите на метод: public java.lang.Object takeSample (boolean withReplacement, int num, long seed) Если я использую его как: RDD.takeSample (false, 5) I ...

scala apache-spark rdd

вопрос задан: 13 July 2018 12:56

0

ответов

Что такое СДР в искре

Определение гласит: RDD - это неизменяемая распределенная коллекция объектов, я не совсем понимаю, что это значит. Похоже ли это на данные (разделенные объекты), хранящиеся на жестком диске.

rdd apache-spark hadoop scala

вопрос задан: 23 December 2015 10:07

0

ответов

PySpark DataFrames - способ перечисления без преобразования в панды?

У меня есть очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи с определенным индексом. (или выберите группу записей с индексами ...

rdd pyspark bigdata apache-spark python

вопрос задан: 7 December 2015 19:07