Какое максимальное количество блоков в сетке может быть создано за один запуск ядра? Я немного сбит с толку, так как теперь в таблице вычислительных возможностей здесь говорится, что на сетку может быть 65535 блоков ...
Эксперты CUDA, если я определил в коде хоста новый тип: struct float_3 {float x; float y; float z;
}; и я передал на устройство некоторые данные этого типа, могу ли я создать __device__ ...
Мой код представляет собой параллельную имплантацию, которая вычисляет n-ю цифру числа Пи. Когда я заканчиваю ядро и пытаюсь скопировать память обратно на хост, я получаю ошибку «время ожидания истекло и было прервано». ...
Я получил следующую настройку. Я собираюсь расширить каркас, написанный на C ++, используя MPI и другие вещи, использующие CUDA. Проект использует cmake для строительства. Я хотел бы избежать использования библиотеки для моего ...
Я студент, и мне было поручено оптимизировать билинейную интерполяцию изображений, задействовав параллелизм из CUDA. Изображение предоставляется в 24-битном формате .bmp. Читалка для .bmp у меня уже есть ...
Я изучаю OpenACC (с помощью компилятора PGI )и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, это следующая :void matrix _mul (float *limited r,...
Я реализую алгоритм, который, по сути, представляет собой серию умножений матрицы на матрицу, например: Res = M1.M2.M3. ... .Mn Мои матрицы на самом деле маленькие 100x100 с плавающей запятой, но последовательность ...
Я ищу очень простой пример умножения матрицы для CUBLAS, который может умножить M на N и поместить результаты в P для следующего кода, используя высокопроизводительные операции с графическим процессором: float ...
После реализации умножения матриц с помощью CUDA. Я попытался реализовать это с помощью CUBLAS (благодаря советам некоторых людей на форуме). Я могу умножать квадратные матрицы, но (да еще раз ...) ...
Какую библиотеку вы используете для матричных вычислений на CUDA? Или есть? Кажется, что каждый пишет это сам. Для обычных процессоров я использую Eigen. А как насчет графических процессоров?
Я запрограммировал ядро CUDA самостоятельно. По сравнению с кодом ЦП, мой код ядра в 10 раз быстрее, чем ЦП. Но у меня есть вопрос с моими экспериментами. Полностью ли оптимизирована моя программа с использованием всех ядер графического процессора,...
В C++ AMP функции ядра или лямбда-выражения помечены с помощью limit(amp), что налагает строгие ограничения на разрешенное подмножество C++ (перечислено здесь). Предоставляет ли CUDA больше свободы для подмножества C++...
У меня есть ядро CUDA, которое вызывается из цикла for. Что-то вроде (i=0; я<10; i++ ){ myKernel<<<1000,256>>> (A,i ); } Теперь предположим, что у меня есть карта NVIDIA с...
Кто-нибудь использует решения на базе Nvidia CUDA для ускорения SSL/AES в производстве? Меня интересует разгрузка SSL и ускорение шифрования/дешифрования AES. Я нашел несколько решений с открытым -исходным кодом, например...
Я хотел бы генерировать случайные числа в моей функции __device __и хранить их в моей int Board[500], я нашел несколько примеров, но они использовали некоторый тип с именем curandState. Мне нужна только такая функция, как...
Я пытаюсь оптимизировать приложение для 3D-моделирования в реальном времени. Вычислительная часть приложения почти полностью выполняется на GPU в CUDA. Приложение требует решения небольшого (6x6 )...
Я хочу использовать нулевую копию -в сопоставленной памяти с помощью cudaHostGetDevicePointer. Могу ли я использовать вектор тяги ::host _или я должен использовать cudaHostAlloc (..., cudaHostAllocMapped )? Или это как-то проще сделать с Thrust?
Не секрет, что в CUDA 4.x первый вызов cudaMalloc может быть смехотворно медленным (, о чем сообщалось несколько раз ), по-видимому, ошибка в драйверах CUDA. Недавно я заметил странное поведение :в...
Я профилировал свою программу Cuda 4, и оказалось, что на каком-то этапе работающий процесс использовал более 80 ГиБ виртуальной памяти. Это было намного больше, чем я ожидал. После осмотра...
Is можно ли создать связанный список на графическом процессоре с помощью CUDA?
Я пытаюсь это сделать, и у меня возникают некоторые трудности.
Если я не могу выделить динамическую память в ядре CUDA, как я могу создать ...
Меня смущают некоторые комментарии, которые я видел о блокировке и cudaMemcpy. Насколько я понимаю, Fermi HW может одновременно запускать ядра и выполнять cudaMemcpy. Я читал, что Lib func...
Numpy можно «связать/скомпилировать» с различными реализациями BLAS (MKL, ACML, ATLAS, GotoBlas и т. д. ). Это не всегда просто настроить, но это возможно. Можно ли также «...
Я знаю, что на графическом процессоре CUDA есть мультипроцессоры, которые содержат ядра CUDA. На моем рабочем месте я работаю с GTX 590, которая содержит 512 ядер CUDA, 16 мультипроцессоров и имеет...
Для использования параллельных алгоритмов данных на GPU с CUDA есть две стандартные библиотеки, CUDPP и Thrust, которые реализуют сортировку, сокращение, сумму префиксов и т.д. Итак, в чем основные отличия...