0
ответов

Максимальное количество блоков на сетку: CUDA

Какое максимальное количество блоков в сетке может быть создано за один запуск ядра? Я немного сбит с толку, так как теперь в таблице вычислительных возможностей здесь говорится, что на сетку может быть 65535 блоков ...
вопрос задан: 13 February 2013 14:22
0
ответов

CUDA __device__ типа struct

Эксперты CUDA, если я определил в коде хоста новый тип: struct float_3 {float x; float y; float z; }; и я передал на устройство некоторые данные этого типа, могу ли я создать __device__ ...
вопрос задан: 20 January 2013 10:05
0
ответов

Ошибка cudamemcpy: «время запуска истекло и было прекращено»

Мой код представляет собой параллельную имплантацию, которая вычисляет n-ю цифру числа Пи. Когда я заканчиваю ядро ​​и пытаюсь скопировать память обратно на хост, я получаю ошибку «время ожидания истекло и было прервано». ...
вопрос задан: 17 January 2013 18:49
0
ответов

В чем разница между вычислительными возможностями CUDA?

Что дает вычислительная мощность 2.0 по сравнению с 1.3, 2.1 по сравнению с 2.0 и 3.0 по сравнению с 2.1?
вопрос задан: 16 December 2012 16:38
0
ответов

Учебное руководство для CUDA + [закрытый] OpenGl

Я ищу учебное руководство простого новичка для CUDA с OpenGL, и как установить среду CUDA на Ubuntu.
вопрос задан: 28 November 2012 15:29
0
ответов

Создание объектных файлов CUDA с использованием cmake

Я получил следующую настройку. Я собираюсь расширить каркас, написанный на C ++, используя MPI и другие вещи, использующие CUDA. Проект использует cmake для строительства. Я хотел бы избежать использования библиотеки для моего ...
вопрос задан: 25 October 2012 17:09
0
ответов

Билинейная интерполяция для увеличения растровых изображений

Я студент, и мне было поручено оптимизировать билинейную интерполяцию изображений, задействовав параллелизм из CUDA. Изображение предоставляется в 24-битном формате .bmp. Читалка для .bmp у меня уже есть ...
вопрос задан: 28 September 2012 02:27
0
ответов

как оптимизировать умножение матриц с помощью OpenACC?

Я изучаю OpenACC (с помощью компилятора PGI )и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, это следующая :void matrix _mul (float *limited r,...
вопрос задан: 14 September 2012 01:15
0
ответов

Выполнение нескольких умножений матрицы на матрицу за одну операцию

Я реализую алгоритм, который, по сути, представляет собой серию умножений матрицы на матрицу, например: Res = M1.M2.M3. ... .Mn Мои матрицы на самом деле маленькие 100x100 с плавающей запятой, но последовательность ...
вопрос задан: 11 September 2012 12:53
0
ответов

Простой пример умножения матрицы CUBLAS?

Я ищу очень простой пример умножения матрицы для CUBLAS, который может умножить M на N и поместить результаты в P для следующего кода, используя высокопроизводительные операции с графическим процессором: float ...
вопрос задан: 11 September 2012 08:44
0
ответов

Умножение матриц CUBLAS

После реализации умножения матриц с помощью CUDA. Я попытался реализовать это с помощью CUBLAS (благодаря советам некоторых людей на форуме). Я могу умножать квадратные матрицы, но (да еще раз ...) ...
вопрос задан: 11 September 2012 07:37
0
ответов

Значение следующего синтаксиса ядра cuda

Что означает следующий синтаксис :Ядро _fun<<<256, 128, 2056>>> (arg1, arg2, arg3 ); Какое значение указывает на рабочую группу, а какое на поток.
вопрос задан: 21 August 2012 12:19
0
ответов

Какую библиотеку вы используете для вычисления матриц на CUDA? [closed]

Какую библиотеку вы используете для матричных вычислений на CUDA? Или есть? Кажется, что каждый пишет это сам. Для обычных процессоров я использую Eigen. А как насчет графических процессоров?
вопрос задан: 16 August 2012 16:08
0
ответов

Как оценить производительность CUDA?

Я запрограммировал ядро ​​CUDA самостоятельно. По сравнению с кодом ЦП, мой код ядра в 10 раз быстрее, чем ЦП. Но у меня есть вопрос с моими экспериментами. Полностью ли оптимизирована моя программа с использованием всех ядер графического процессора,...
вопрос задан: 11 August 2012 06:57
0
ответов

Является ли limited(amp) более строгим, чем код ядра CUDA?

В C++ AMP функции ядра или лямбда-выражения помечены с помощью limit(amp), что налагает строгие ограничения на разрешенное подмножество C++ (перечислено здесь). Предоставляет ли CUDA больше свободы для подмножества C++...
вопрос задан: 10 August 2012 18:33
0
ответов

Печать сообщений в PyCUDA

В простых программах CUDA мы можем печатать сообщения потоками, включив cuPrintf.h, но в PyCUDA это нигде не объясняется. Как это сделать в PyCUDA?
вопрос задан: 10 August 2012 16:38
0
ответов

Вызов ядра CUDA изнутри цикла for

У меня есть ядро ​​CUDA, которое вызывается из цикла for. Что-то вроде (i=0; я<10; i++ ){ myKernel<<<1000,256>>> (A,i ); } Теперь предположим, что у меня есть карта NVIDIA с...
вопрос задан: 8 August 2012 23:09
0
ответов

аппаратное ускорение криптографии с GPU

Кто-нибудь использует решения на базе Nvidia CUDA для ускорения SSL/AES в производстве? Меня интересует разгрузка SSL и ускорение шифрования/дешифрования AES. Я нашел несколько решений с открытым -исходным кодом, например...
вопрос задан: 8 August 2012 03:10
0
ответов

Генерация случайных чисел CUDA

Я хотел бы генерировать случайные числа в моей функции __device __и хранить их в моей int Board[500], я нашел несколько примеров, но они использовали некоторый тип с именем curandState. Мне нужна только такая функция, как...
вопрос задан: 7 August 2012 16:31
0
ответов

Библиотека CURAND -Ошибка компиляции -Неопределенная ссылка на функции

У меня есть следующий код, который я пытаюсь скомпилировать с помощью nvcc. Код:#включить #включить #включить #include int main (void ){...
вопрос задан: 31 July 2012 06:47
0
ответов

Решение малых симметричных положительно определенных Ax = b только на графическом процессоре

Я пытаюсь оптимизировать приложение для 3D-моделирования в реальном времени. Вычислительная часть приложения почти полностью выполняется на GPU в CUDA. Приложение требует решения небольшого (6x6 )...
вопрос задан: 29 July 2012 17:06
0
ответов

Могу ли я использовать вектор Thrust ::host _или я должен использовать cudaHostAlloc для нулевой -копии с Thrust?

Я хочу использовать нулевую копию -в сопоставленной памяти с помощью cudaHostGetDevicePointer. Могу ли я использовать вектор тяги ::host _или я должен использовать cudaHostAlloc (..., cudaHostAllocMapped )? Или это как-то проще сделать с Thrust?
вопрос задан: 28 July 2012 09:50
0
ответов

Связывание со сторонними библиотеками CUDA замедляет cudaMalloc

Не секрет, что в CUDA 4.x первый вызов cudaMalloc может быть смехотворно медленным (, о чем сообщалось несколько раз ), по-видимому, ошибка в драйверах CUDA. Недавно я заметил странное поведение :в...
вопрос задан: 26 July 2012 08:34
0
ответов

Почему среда выполнения Cuda резервирует 80 ГБ виртуальной памяти при инициализации?

Я профилировал свою программу Cuda 4, и оказалось, что на каком-то этапе работающий процесс использовал более 80 ГиБ виртуальной памяти. Это было намного больше, чем я ожидал. После осмотра...
вопрос задан: 24 July 2012 12:47
0
ответов

Создание связанного списка с использованием CUDA

Is можно ли создать связанный список на графическом процессоре с помощью CUDA? Я пытаюсь это сделать, и у меня возникают некоторые трудности. Если я не могу выделить динамическую память в ядре CUDA, как я могу создать ...
вопрос задан: 24 July 2012 06:15
0
ответов

cudaMemcpy и блокировка

Меня смущают некоторые комментарии, которые я видел о блокировке и cudaMemcpy. Насколько я понимаю, Fermi HW может одновременно запускать ядра и выполнять cudaMemcpy. Я читал, что Lib func...
вопрос задан: 23 July 2012 19:33
0
ответов

Нампи, BLAS и CUBLAS

Numpy можно «связать/скомпилировать» с различными реализациями BLAS (MKL, ACML, ATLAS, GotoBlas и т. д. ). Это не всегда просто настроить, но это возможно. Можно ли также «...
вопрос задан: 20 July 2012 08:54
0
ответов

Атомарные операции Cuda с беззнаковым шортом

Есть ли в cuda встроенные функции для выполнения атомарных операций с беззнаковым коротким или беззнаковым символом?
вопрос задан: 19 July 2012 18:11
0
ответов

CUDA -Мультипроцессоры, размер деформации и максимальное количество потоков на блок :Какова точная взаимосвязь?

Я знаю, что на графическом процессоре CUDA есть мультипроцессоры, которые содержат ядра CUDA. На моем рабочем месте я работаю с GTX 590, которая содержит 512 ядер CUDA, 16 мультипроцессоров и имеет...
вопрос задан: 19 July 2012 16:10
0
ответов

Тяга против CUDPP

Для использования параллельных алгоритмов данных на GPU с CUDA есть две стандартные библиотеки, CUDPP и Thrust, которые реализуют сортировку, сокращение, сумму префиксов и т.д. Итак, в чем основные отличия...
вопрос задан: 19 July 2012 14:43