Если вы просто хотите подсчитать количество строк в rdd
, выполните:
val distFile = sc.textFile(file)
println(distFile.count)
Если вас интересуют байты, вы можете использовать SizeEstimator
:
import org.apache.spark.util.SizeEstimator
println(SizeEstimator.estimate(distFile))
https://spark.apache.org/docs/latest/api/java/org/apache/spark/util/SizeEstimator.html
Определенная польза от использования многомерной сетки. Различные записи (tid, ctaid) являются переменными только для чтения, видимыми как специальные регистры. См. PTX ISA
PTX включает в себя ряд предопределенных переменных только для чтения, которые видны как специальные регистры и доступны через команды mov или cvt. Специальные регистры:
%tid %ntid %laneid %warpid %nwarpid %ctaid %nctaid
Если некоторые из этих данных могут использоваться без дальнейшей обработки, вы можете получить не только арифметические инструкции, но и потенциально на каждом этапе индексирования многоразмерных данных , но что более важно, вы сохраняете регистры, которые являются очень скудным ресурсом для любого оборудования.