Я немного погуглил, но мне сейчас не ясно, могут ли некоторые графические процессоры, запрограммированные с помощью CUDA, использовать преимущества или могут использовать инструкции, аналогичные инструкциям из расширений SSE SIMD; например, можем ли мы суммировать два вектора чисел с плавающей запятой с двойной точностью, каждый из которых имеет 4 значения. Если да, то мне интересно, было бы лучше использовать более легкие потоки для каждого из предыдущих 4 значений вектора или использовать SIMD.