Я написал несколько простых бенчмарков, выполняющих серию глобальных обращений к памяти. Когда я измерял статистику L1 и L2 кэш-памяти, я обнаружил это (в GTX580, который имеет 16 SMs):
total L1 cache misses * 16 != total L2 cache queries
Действительно, правая сторона намного выше левой (около пяти раз). Я слышал, что некоторые разливы регистра можно поместить и в L2. Но мое ядро имеет только менее 28 регистров, не так уж и много. Интересно, в чём причина такой разницы? Или я неправильно понимаю значение этих счетчиков производительности?
Спасибо