Дополнительный вопрос из :CUDA :Вызов функции __устройства __из ядра Я пытаюсь ускорить операцию сортировки. Далее следует упрощенная псевдоверсия :// какая-то дорогостоящая операция подкачки __устройство __подкачка (...
Я работаю над проектом, в котором необходимо использовать БПФ на видеокартах Nvidia и AMD. Сначала я искал библиотеку, которая работала бы на обоих (, думая, что это будет способ OpenCL ), но я...
Прямой вопрос: как создать простой проект CUDA hello world в Visual Studio 2010? Предыстория: Я написал ядра CUDA. Я хорошо знаком с файлами .vcproj из Visual ...
Я заинтересовался умножением матриц на CUDA. Результирующая матрица продукта всегда равна нулю. Я прочитал несколько примеров кодов, таких как матричное умножение в cuda, для решения моей проблемы, но все в ...
Это вопрос о том, как определить размер сетки, блока и потока CUDA. Это дополнительный вопрос к опубликованному здесь: https://stackoverflow.com/a/5643838/1292251 После этого...
Я пытаюсь объявить переменную для умножения матриц следующим образом: __shared__ float As [BLOCK_SIZE] [BLOCK_SIZE]; Я пытаюсь сделать так, чтобы пользователь мог вводить размер матрицы, чтобы ...
У меня есть следующий (фрагмент) ядра.__global__ пустая равнина (int * geneVec, float * probs, int * nComponents, float * randomNumbers, int * nGenes)
{ int xid = threadIdx.x + (blockDim.x * blockIdx....
Я использую OpenCV для приложения в области компьютерного зрения. Я хотел бы ускорить некоторые операции с матрицами, (матрицы довольно большие )на графическом процессоре, и хочу по возможности избежать кодирования непосредственно в CUDA C....
Не могли бы вы сказать мне, почему a = (b> 0)? 1: 0 лучше, чем if (b> 0) a = 1; иначе a = 0; версия в CUDA? Приведите подробности. Большое спасибо. Yik
эта программа в порядке, но я все еще получаю ошибку, какое-то предложение? Программа: #include "dot.h"
#include
#include
#include int main (int argc, ...
What is "coalesced" in CUDA global memory transaction? I couldn't understand even after going through my CUDA guide. How to do it? In CUDA programming guide matrix example, accessing the matrix row by ...
Я использую XmlHttpRequests для загрузки изображений на сервер, и я хотел бы показать пользователю прогресс этих загрузок. К сожалению, интервал между вызовами моего обработчика событий onprogress слишком велик ...
Я использую CUDA уже несколько недель, но у меня есть некоторые сомнения по поводу распределения блоков/перекосов/потоков. Я изучаю архитектуру с дидактической точки зрения (университетский проект ), так что...
Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2. Однако в справочном руководстве CUDA я ничего не могу найти об этом. Dues CUDA позволяет моему коду ядра выполнять предварительную выборку определенных данн
У меня очень простой ноутбук Toshiba с процессором i3. Кроме того, у меня нет дорогой видеокарты. В настройках дисплея я вижу Intel (HD) Graphics как адаптер дисплея. Планирую изучить ...
Я заинтересован в разработке новых технологий и подумывал попробовать CUDA. Теперь ... их документация слишком техническая и не дает ответов, которые я ищу. Кроме того, я бы ...
Рекомендуете ли вы прочитать код PTX вашего ядра, чтобы узнать, как оптимизировать ваши ядра дальше? Один пример: я читал, что по коду PTX можно узнать, сработала ли автоматическая развертка цикла. Если ...
В настоящее время я использую CUDA версии 7.5 с CuDNN версии 5 для MatConvNet. Я хотел бы установить версию 8.0 и cuDNN версии 5.1, и я хочу знать, будут ли конфликты, если у меня будет ...
Я бегло просмотрел руководство по программированию CUDA с -использованием -быстрой -математической оптимизации, и хотя в приложении C упоминаются деления, которые должны быть преобразованы во встроенные, но нет упоминания о...
Следующий код суммирует каждые 32 элемента в массиве с самым первым элементом каждой группы из 32 элементов: int i = threadIdx.x;
int warpid = i&31;
if(warpid < 16){ s_buf[i] += s_buf[i+16];...
Примечание. Этот вопрос касается устройств nVIDIA Compute Capability 2.1. Следующая информация получена из Руководства по программированию CUDA v4.1: В устройствах с вычислительными возможностями 2.1 каждый SM имеет ...
У меня GeForce GTX460 SE, так что это :6 SM x 48 ядер CUDA = 288 ядер CUDA. Известно, что в одном Warp содержится 32 потока, и что в одном блоке одновременно (за раз )может выполняться только один...
Для использования атомарных операций в CUDA необходимо ли включать какой-либо файл заголовка CUDA? Руководство по программированию на CUDA, кажется, придерживается этой темы. Приведенный ниже код glmax.cu дает мне ...
Я читал руководство по программированию для CUDA и OpenCL и не могу понять, что такое конфликт банков. Они просто пытаются понять, как решить проблему, не вдаваясь в подробности ...
Я искал способы уменьшить задержку, вызванную передачей данных между процессором и графическим процессором. Когда я впервые начал использовать CUDA, я заметил, что передача данных между CPU и ...
Я просмотрел много вопросов здесь на что-то похожее и их довольно много, хотя и с одним небольшим изменением. Я пытаюсь отсортировать значения с помощью итератора zip_в качестве составного ключа....
Я генерирую вывод препроцессора (.i) из Visual Studio, но также хочу выполнить сборку . Есть ли комбинация флагов, которые будут выводить файл .i без остановки компилятора ...