Количество вычислительных единиц, соответствующее количеству рабочих групп

Мне нужно пояснение. Я разрабатываю OpenCL на своем ноутбуке с небольшим графическим процессором nvidia (310M). Когда я запрашиваю у устройства CL_DEVICE_MAX_COMPUTE_UNITS , результат будет 2. Я прочитал, что количество рабочих групп для запуска ядра должно соответствовать количеству вычислительных единиц ( Гетерогенные вычисления с OpenCL , Глава 9, стр.186), иначе будет потрачено слишком много пропускной способности глобальной памяти.

Также указано, что чип имеет 16 ядер cuda (которые, как я полагаю, соответствуют PE). Означает ли это, что теоретически наиболее производительной настройкой для этого графического процессора с точки зрения пропускной способности глобальной памяти является наличие двух рабочих групп по 16 рабочих элементов в каждой?

14
задан rdoubleui 17 February 2012 в 10:17
поделиться