Фактическая пропускная способность, достигнутая ядром, сообщается профилировщиком CUDA с использованием четырех показателей:
CUDA C Best Practices Guideописывает пропускную способность загрузки/сохранения глобальной памяти как фактическую пропускную способность и не говорит ничего конкретного о пропускной способности чтения/записи DRAM.
Руководство пользователя CUPTIопределяет:
Я понимаю пропускную способность чтения/записи DRAM, поскольку счетчики fb_subp* сообщают о количестве обращений к DRAM (увеличивается на 1 для доступа к 32 байтам) и собираются для всех SM. . Поэтому для меня ясно, что пропускная способность рассчитывается как функция gputime и количества байтов, к которым осуществляется доступ.
Я не понимаю определение пропускной способности глобальной памяти.Нет определения global_load_hit и счетчика. Я не понимаю, почему l1_cached_local_ld_misses вычитается в обоих случаях.
Является ли DRAM чем-то отличным от глобальной памяти в этом контексте?
Если я хочу узнать, какова фактическая пропускная способность моего ядра, следует ли мне использовать показатели пропускной способности DRAM или глобальной памяти?