Если я начну ядро с сеткой, блоки которой имеют размеры: dim3 block_dims (16,16); Как блоки сетки теперь разделяются на деформации? Первые два ряда такого блока формируют одну деформацию, или первую ...
Следующий код суммирует каждые 32 элемента в массиве с самым первым элементом каждой группы из 32 элементов: int i = threadIdx.x;
int warpid = i&31;
if(warpid < 16){ s_buf[i] += s_buf[i+16];...
Примечание. Этот вопрос касается устройств nVIDIA Compute Capability 2.1. Следующая информация получена из Руководства по программированию CUDA v4.1: В устройствах с вычислительными возможностями 2.1 каждый SM имеет ...
У меня GeForce GTX460 SE, так что это :6 SM x 48 ядер CUDA = 288 ядер CUDA. Известно, что в одном Warp содержится 32 потока, и что в одном блоке одновременно (за раз )может выполняться только один...