Если я начну ядро с сеткой, блоки которой имеют размеры: dim3 block_dims (16,16); Как блоки сетки теперь разделяются на деформации? Первые два ряда такого блока формируют одну деформацию, или первую ...
Сегодня я добавил в свое ядро еще четыре __local переменных, чтобы вывести промежуточные результаты. Но просто добавив еще четыре переменных в сигнатуру ядра и добавление соответствующих аргументов ядра ...
Есть ли у кого-нибудь опыт создания / управления машинным кодом графического процессора, возможно, во время выполнения? Я заинтересован в изменении кода ассемблера графического процессора, возможно, во время выполнения с минимальными накладными расходами
В соответствии с "Руководством по программированию CUDA C", постоянный доступ к памяти дает преимущества только в том случае, если происходит попадание в многопроцессорный постоянный кэш (Раздел 5.3.2.4 )1. В противном случае может быть еще больше запросо
У меня есть GeForce GTX 580, и я хочу сделать заявление об общем количестве потоков, которые (в идеале) могут быть запущены параллельно, для сравнения с 2 или 4 многоядерными CPU. deviceQuery дает ...
Я пытаюсь использовать caffe и python для классификации изображений в реальном времени. Я использую OpenCV для потоковой передачи с моей веб-камеры в одном процессе и в отдельном процессе, используя caffe для выполнения изображения ...
Я работаю над проектом, в котором необходимо использовать БПФ на видеокартах Nvidia и AMD. Сначала я искал библиотеку, которая работала бы на обоих (, думая, что это будет способ OpenCL ), но я...
эта программа в порядке, но я все еще получаю ошибку, какое-то предложение? Программа: #include "dot.h"
#include
#include
#include int main (int argc, ...
Я использую CUDA уже несколько недель, но у меня есть некоторые сомнения по поводу распределения блоков/перекосов/потоков. Я изучаю архитектуру с дидактической точки зрения (университетский проект ), так что...
Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2. Однако в справочном руководстве CUDA я ничего не могу найти об этом. Dues CUDA позволяет моему коду ядра выполнять предварительную выборку определенных данн
Рекомендуете ли вы прочитать код PTX вашего ядра, чтобы узнать, как оптимизировать ваши ядра дальше? Один пример: я читал, что по коду PTX можно узнать, сработала ли автоматическая развертка цикла. Если ...
Есть ли заметная разница в производительности TensorFlow при использовании графических процессоров Quadro и GeForce? например он использует операции с двойной точностью или что-то еще, что может вызвать падение GeForce ...
когда действительно необходим вызов функции cudaDeviceSynchronize?. Насколько я понял из документации CUDA, ядра CUDA асинхронны, поэтому кажется, что нам следует вызывать...
Как следует из следующей ошибки, вызов функции хоста ('rand') в ядре недопустим, и мне интересно, есть ли решение для этого, если мне нужно это сделать. ошибка: вызов функции хоста ("...
У меня есть 2 очень похожие функции ядра в том смысле, что код почти такой же, но с небольшой разницей. В настоящее время у меня есть 2 варианта: Написать 2 разных метода (но очень похожих) ...
If you have work items executing in a wavefront and there is a conditional such as: if(x){ ... } else{ .... } What do the work-items execute? is it the case whereby all ...
Для моей работы это ' Особенно интересно выполнять целочисленные вычисления, для которых, очевидно, не были созданы графические процессоры. У меня вопрос: поддерживают ли современные графические процессоры эффективные целочисленные операции? Я понимаю ..
Я хочу измерить время внутреннего ядра графического процессора, как его измерить в NVIDIA CUDA?
например __global__ void kernelSample()
{ здесь какой-то код получить время начала какой-то код здесь получить время остановки какой-то ...
Я реализовал простое ядро, которое представляет собой своего рода свертку. Я измерял его на NVIDIA GT 240. Это заняло 70 мс при записи на CUDA и 100 мс при записи на OpenCL. Хорошо, подумал я, компилятор NVIDIA ...
Есть ли какая-либо библиотека или свободно доступный код, который будет вычислять определитель небольшой (6x6 )матрицы двойной точности полностью на графическом процессоре?
Я пишу алгоритм на OpenCL, в котором мне нужно, чтобы каждая рабочая единица запоминала значительную часть данных, скажем, что-то между длинным [70] и long [200] или около того на ядро. Последние устройства AMD имеют 32 ...
Я бы хотел запустить процесс с интенсивным использованием ЦП и ГП на некоторых машинах, но эти процессы не должны мешать выполнению задач пользователя. Поэтому мне нужно ограничить или хотя бы обнаружить использование графического процессора моими процес
У меня есть приложение, которое решает систему уравнений в CUDA, я точно знаю, что каждый поток может найти до 4-х решений, но как потом скопировать обратно на хост? Я передаю огромный массив с...
В отличие от барьера () (который, я думаю, я понимаю), mem_fence () не влияет на все элементы в рабочей группе. В спецификации OpenCL сказано (раздел 6.11.10) для mem_fence (): Заказы на загрузку и сохранение работы -...
Я изучаю OpenACC (с помощью компилятора PGI )и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, это следующая :void matrix _mul (float *limited r,...
Я использую OpenGL для выполнения некоторых вычислений GPGPU посредством комбинации одного вершинного шейдера и одного фрагментного шейдера , Мне нужно сделать вычисления на изображении в другом масштабе. Я хотел бы использовать ...
Не секрет, что в CUDA 4.x первый вызов cudaMalloc может быть смехотворно медленным (, о чем сообщалось несколько раз ), по-видимому, ошибка в драйверах CUDA. Недавно я заметил странное поведение :в...