Пиковая пропускная способность ядра cuda на графическом процессоре NVIDA

У меня вопрос о пропускной способности ядра, работающего на графическом процессоре. Предполагая, что его заполнение составляет 0,5, размер блока равен 256: в руководстве по программированию говорится, что лучше иметь много блоков, чтобы они могли скрыть задержку памяти и т.д. Но я не понимаю, почему это правильно. Поскольку, как только ядро ​​имеет число деформаций на потоковый мультипроцессор = 24, то есть 3 блока, оно достигает максимальной пропускной способности. Таким образом, наличие более 24 перекосов (или 3 блоков) ничего не изменит в пропускной способности.

Я что-то упускаю? Может ли кто-нибудь меня исправить?

5
задан Bart 6 August 2011 в 09:55
поделиться