cuda - список вопросов по программированию cuda

0

ответов

Максимальное количество блоков на сетку: CUDA

Какое максимальное количество блоков в сетке может быть создано за один запуск ядра? Я немного сбит с толку, так как теперь в таблице вычислительных возможностей здесь говорится, что на сетку может быть 65535 блоков ...

cuda nvidia

вопрос задан: 13 February 2013 14:22

0

ответов

CUDA device типа struct

Эксперты CUDA, если я определил в коде хоста новый тип: struct float_3 {float x; float y; float z; }; и я передал на устройство некоторые данные этого типа, могу ли я создать __device__ ...

cuda

вопрос задан: 20 January 2013 10:05

0

ответов

Ошибка cudamemcpy: «время запуска истекло и было прекращено»

Мой код представляет собой параллельную имплантацию, которая вычисляет n-ю цифру числа Пи. Когда я заканчиваю ядро и пытаюсь скопировать память обратно на хост, я получаю ошибку «время ожидания истекло и было прервано». ...

memory timeout cuda

вопрос задан: 17 January 2013 18:49

0

ответов

В чем разница между вычислительными возможностями CUDA?

Что дает вычислительная мощность 2.0 по сравнению с 1.3, 2.1 по сравнению с 2.0 и 3.0 по сравнению с 2.1?

cuda

вопрос задан: 16 December 2012 16:38

0

ответов

Учебное руководство для CUDA + [закрытый] OpenGl

Я ищу учебное руководство простого новичка для CUDA с OpenGL, и как установить среду CUDA на Ubuntu.

opengl cuda

вопрос задан: 28 November 2012 15:29

0

ответов

Создание объектных файлов CUDA с использованием cmake

Я получил следующую настройку. Я собираюсь расширить каркас, написанный на C ++, используя MPI и другие вещи, использующие CUDA. Проект использует cmake для строительства. Я хотел бы избежать использования библиотеки для моего ...

cmake cuda build

вопрос задан: 25 October 2012 17:09

0

ответов

Билинейная интерполяция для увеличения растровых изображений

Я студент, и мне было поручено оптимизировать билинейную интерполяцию изображений, задействовав параллелизм из CUDA. Изображение предоставляется в 24-битном формате .bmp. Читалка для .bmp у меня уже есть ...

c++ image-processing cuda interpolation image-resizing

вопрос задан: 28 September 2012 02:27

0

ответов

как оптимизировать умножение матриц с помощью OpenACC?

Я изучаю OpenACC (с помощью компилятора PGI )и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, это следующая :void matrix _mul (float *limited r,...

cuda gpgpu opencl openacc

вопрос задан: 14 September 2012 01:15

0

ответов

Выполнение нескольких умножений матрицы на матрицу за одну операцию

Я реализую алгоритм, который, по сути, представляет собой серию умножений матрицы на матрицу, например: Res = M1.M2.M3. ... .Mn Мои матрицы на самом деле маленькие 100x100 с плавающей запятой, но последовательность ...

c++ c cuda blas cublas

вопрос задан: 11 September 2012 12:53

0

ответов

Простой пример умножения матрицы CUBLAS?

Я ищу очень простой пример умножения матрицы для CUBLAS, который может умножить M на N и поместить результаты в P для следующего кода, используя высокопроизводительные операции с графическим процессором: float ...

cuda gpu matrix-multiplication cublas

вопрос задан: 11 September 2012 08:44

0

ответов

Умножение матриц CUBLAS

После реализации умножения матриц с помощью CUDA. Я попытался реализовать это с помощью CUBLAS (благодаря советам некоторых людей на форуме). Я могу умножать квадратные матрицы, но (да еще раз ...) ...

cuda matrix-multiplication blas cublas

вопрос задан: 11 September 2012 07:37

0

ответов

Значение следующего синтаксиса ядра cuda

Что означает следующий синтаксис :Ядро _fun<<<256, 128, 2056>>> (arg1, arg2, arg3 ); Какое значение указывает на рабочую группу, а какое на поток.

cuda opencl visual-c++

вопрос задан: 21 August 2012 12:19

0

ответов

Какую библиотеку вы используете для вычисления матриц на CUDA? [closed]

Какую библиотеку вы используете для матричных вычислений на CUDA? Или есть? Кажется, что каждый пишет это сам. Для обычных процессоров я использую Eigen. А как насчет графических процессоров?

c++ cuda scientific-computing

вопрос задан: 16 August 2012 16:08

0

ответов

Как оценить производительность CUDA?

Я запрограммировал ядро CUDA самостоятельно. По сравнению с кодом ЦП, мой код ядра в 10 раз быстрее, чем ЦП. Но у меня есть вопрос с моими экспериментами. Полностью ли оптимизирована моя программа с использованием всех ядер графического процессора,...

cuda performance

вопрос задан: 11 August 2012 06:57

0

ответов

Является ли limited(amp) более строгим, чем код ядра CUDA?

В C++ AMP функции ядра или лямбда-выражения помечены с помощью limit(amp), что налагает строгие ограничения на разрешенное подмножество C++ (перечислено здесь). Предоставляет ли CUDA больше свободы для подмножества C++...

cuda gpu-programming parallel-processing c++-amp

вопрос задан: 10 August 2012 18:33

0

ответов

Печать сообщений в PyCUDA

В простых программах CUDA мы можем печатать сообщения потоками, включив cuPrintf.h, но в PyCUDA это нигде не объясняется. Как это сделать в PyCUDA?

cuda pycuda

вопрос задан: 10 August 2012 16:38

0

ответов

Вызов ядра CUDA изнутри цикла for

У меня есть ядро CUDA, которое вызывается из цикла for. Что-то вроде (i=0; я<10; i++ ){ myKernel<<<1000,256>>> (A,i ); } Теперь предположим, что у меня есть карта NVIDIA с...

cuda

вопрос задан: 8 August 2012 23:09

0

ответов

аппаратное ускорение криптографии с GPU

Кто-нибудь использует решения на базе Nvidia CUDA для ускорения SSL/AES в производстве? Меня интересует разгрузка SSL и ускорение шифрования/дешифрования AES. Я нашел несколько решений с открытым -исходным кодом, например...

cuda encryption hardware openssl

вопрос задан: 8 August 2012 03:10

0

ответов

Генерация случайных чисел CUDA

Я хотел бы генерировать случайные числа в моей функции __device __и хранить их в моей int Board[500], я нашел несколько примеров, но они использовали некоторый тип с именем curandState. Мне нужна только такая функция, как...

cuda

вопрос задан: 7 August 2012 16:31

0

ответов

Библиотека CURAND -Ошибка компиляции -Неопределенная ссылка на функции

У меня есть следующий код, который я пытаюсь скомпилировать с помощью nvcc. Код:#включить #включить #включить #include int main (void ){...

cuda gpu gpgpu prng

вопрос задан: 31 July 2012 06:47

0

ответов

Решение малых симметричных положительно определенных Ax = b только на графическом процессоре

Я пытаюсь оптимизировать приложение для 3D-моделирования в реальном времени. Вычислительная часть приложения почти полностью выполняется на GPU в CUDA. Приложение требует решения небольшого (6x6 )...

algorithm cuda gpu solver linear-algebra

вопрос задан: 29 July 2012 17:06

0

ответов

Могу ли я использовать вектор Thrust ::host _или я должен использовать cudaHostAlloc для нулевой -копии с Thrust?

Я хочу использовать нулевую копию -в сопоставленной памяти с помощью cudaHostGetDevicePointer. Могу ли я использовать вектор тяги ::host _или я должен использовать cudaHostAlloc (..., cudaHostAllocMapped )? Или это как-то проще сделать с Thrust?

cuda gpu thrust zero-copy

вопрос задан: 28 July 2012 09:50

0

ответов

Связывание со сторонними библиотеками CUDA замедляет cudaMalloc

Не секрет, что в CUDA 4.x первый вызов cudaMalloc может быть смехотворно медленным (, о чем сообщалось несколько раз ), по-видимому, ошибка в драйверах CUDA. Недавно я заметил странное поведение :в...

cuda gpu gpgpu gpu-programming

вопрос задан: 26 July 2012 08:34

0

ответов

Почему среда выполнения Cuda резервирует 80 ГБ виртуальной памяти при инициализации?

Я профилировал свою программу Cuda 4, и оказалось, что на каком-то этапе работающий процесс использовал более 80 ГиБ виртуальной памяти. Это было намного больше, чем я ожидал. После осмотра...

cuda

вопрос задан: 24 July 2012 12:47

0

ответов

Создание связанного списка с использованием CUDA

Is можно ли создать связанный список на графическом процессоре с помощью CUDA? Я пытаюсь это сделать, и у меня возникают некоторые трудности. Если я не могу выделить динамическую память в ядре CUDA, как я могу создать ...

linked-list cuda gpu

вопрос задан: 24 July 2012 06:15

0

ответов

cudaMemcpy и блокировка

Меня смущают некоторые комментарии, которые я видел о блокировке и cudaMemcpy. Насколько я понимаю, Fermi HW может одновременно запускать ядра и выполнять cudaMemcpy. Я читал, что Lib func...

cuda

вопрос задан: 23 July 2012 19:33

0

ответов

Нампи, BLAS и CUBLAS

Numpy можно «связать/скомпилировать» с различными реализациями BLAS (MKL, ACML, ATLAS, GotoBlas и т. д. ). Это не всегда просто настроить, но это возможно. Можно ли также «...

blas cuda gpgpu numpy

вопрос задан: 20 July 2012 08:54

0

ответов

Атомарные операции Cuda с беззнаковым шортом

Есть ли в cuda встроенные функции для выполнения атомарных операций с беззнаковым коротким или беззнаковым символом?

atomic cuda gpu

вопрос задан: 19 July 2012 18:11

0

ответов

CUDA -Мультипроцессоры, размер деформации и максимальное количество потоков на блок :Какова точная взаимосвязь?

Я знаю, что на графическом процессоре CUDA есть мультипроцессоры, которые содержат ядра CUDA. На моем рабочем месте я работаю с GTX 590, которая содержит 512 ядер CUDA, 16 мультипроцессоров и имеет...

caching cuda textures memory

вопрос задан: 19 July 2012 16:10

0

ответов

Тяга против CUDPP

Для использования параллельных алгоритмов данных на GPU с CUDA есть две стандартные библиотеки, CUDPP и Thrust, которые реализуют сортировку, сокращение, сумму префиксов и т.д. Итак, в чем основные отличия...

cudpp cuda thrust

вопрос задан: 19 July 2012 14:43