Я должен сделать, атомарный FP добавляет операцию на глобальной памяти на устройстве CC 2.0. Если глобальные данные, на которые ссылаются в деформации, впишутся в выровненный 128-байтовый сектор, то эти операции будут сделаны параллельно, или они будут выполняться по одному?
Мое предположение было бы то, что они параллельны, но я не уверен в этом
Отношения Gautham Ganapathy
Атомарные операции медленнее обычных операций, потому что они действительно не могут выполняться параллельно.
Что, вероятно, произойдет, так это то, что каждое добавление будет выполняться по одному, но выполнение не будет продвигаться дальше добавления, пока все потоки не завершат его, это будет выглядеть параллельно с точки зрения кода.
Я не уверен, будет ли доступ объединен или нет, но потеря скорости из-за атомарных операций, вероятно, перевесит выигрыш в скорости доступа к памяти.