Я нашел замечание только на то, что локальная память медленнее, чем регистрировать память, типы двух потоков. Общая память должна быть быстрой, но это быстрее, чем локальная память [резьба]? Что я.
Я пытаюсь выделить разделяемую память, используя постоянный параметр, но получаю сообщение об ошибке. мое ядро выглядит так: __global__ void Kernel (const int count)
{__shared__ int a [количество];
} и я ...
__shared__ память в CUDA требует известного размера во время компиляции. Однако в моей проблеме размер __shared__ памяти известен только во время выполнения, то есть int size=get_size();
__shared__ mem[size]...
Сегодня я добавил в свое ядро еще четыре __local переменных, чтобы вывести промежуточные результаты. Но просто добавив еще четыре переменных в сигнатуру ядра и добавление соответствующих аргументов ядра ...
Размер разделяемой памяти («локальная память» в терминах OpenCL) составляет всего 16 Кбайт на большинстве современных графических процессоров NVIDIA.
У меня есть приложение, в котором мне нужно создать массив из 10 000 целых чисел. так что ...