Сколько циклов задержки памяти для каждого типа доступа к памяти в OpenCL / CUDA?

Я просмотрел руководство по программированию и руководство по передовому опыту и упомянул, что доступ к глобальной памяти занимает 400-600 циклов. Я не видел много других типов памяти, таких как кеш текстур, постоянный кеш, разделяемая память. Регистры имеют нулевую задержку памяти.

Я думаю, что постоянный кеш - это то же самое, что и регистры, если все потоки используют один и тот же адрес в постоянном кеше. Я не уверен в худшем случае.

Общая память - это то же самое, что и регистры, если нет конфликтов банков? Если есть, то как происходит задержка?

А как насчет кеша текстур?

5
задан smuggledPancakes 4 November 2010 в 14:27
поделиться