Эффективность размера блока и сетки CUDA

Каков рекомендуемый способ работы с наборами данных динамического размера в cuda?

Это случай «установить размеры блока и сетки на основе набора задач» или стоит ли назначать размеры блока как коэффициент 2 и иметь некоторую логику в ядре, чтобы справиться с переполнением?

Я понимаю, насколько это, вероятно, имеет большое значение для размеров блока, но насколько это важно для размеры сетки? Насколько я понимаю, фактические аппаратные ограничения ограничиваются на уровне блоков (то есть блоки, назначенные SM, которые имеют заданное количество SP, и поэтому могут обрабатывать конкретный размер деформации).

Я прочитал Кирка «Programming Massively Parallel» Процессоры, но это не касается этой области.

19
задан Bolster 27 April 2011 в 20:54
поделиться