У меня есть Array [Row] Я использую класс case, чтобы отобразить его, чтобы получить класс case в RDD MyClass (string, long) sparkSession.sparkContext. распараллелить (row.map (r1 = > MyClass (r1.getString (0) .concat (r1 ....
В функции evictBlocksToFreeSpace он говорит: Попробуйте выселить блоки, чтобы освободить определенное количество места для хранения определенного блока. Может потерпеть неудачу, если блок больше нашей памяти или ...
Мне нужно рассчитать размер RDD в Java. В Scala это было довольно просто, и я использовал следующий код: rdd.map (_. GetBytes ("UTF-8"). Length.toLong.reduce (_ + _), который дает правильный размер. В ...
У меня есть текстовый файл в HDFS, и я хочу преобразовать его в фрейм данных в Spark. Я использую Spark Context для загрузки файла, а затем пытаюсь сгенерировать отдельные столбцы из этого файла. val myFile = ...
Посмотрите на метод: public java.lang.Object takeSample (boolean withReplacement, int num, long seed) Если я использую его как: RDD.takeSample (false, 5) I ...
Определение гласит: RDD - это неизменяемая распределенная коллекция объектов, я не совсем понимаю, что это значит. Похоже ли это на данные (разделенные объекты), хранящиеся на жестком диске.
У меня есть очень большой pyspark.sql.dataframe.DataFrame с именем df. Мне нужен какой-то способ перечисления записей - таким образом, возможность доступа к записи с определенным индексом. (или выберите группу записей с индексами ...