0
ответов

Программирование CUDA C с 2 видеокартами

Я очень новичок в программировании CUDA и читал «Руководство по программированию CUDA C», предоставленное nvidia.(http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf)...
вопрос задан: 16 July 2012 09:27
0
ответов

Как вывести PTX с аннотациями C/C++ в CUDA 4.1/4.2/5.0

Кто-нибудь знает, как получить ассемблер PTX, аннотированный кодом C/C++ с новым концом LLVM -? Можно легко получить с помощью CUDA 4.0 или более ранней версии, но NVCC отклоняет все мои флаги после обновления инструментария CUDA до...
вопрос задан: 14 July 2012 15:18
0
ответов

Какие переменные потребляют регистры в CUDA?

__global __void add (int *c, const int *a, const int *b ){ int x = blockIdx.x; интервал у = blockIdx.y; int offset = x + y *gridDim.x; c[смещение] = a[смещение] + b[смещение]; } В приведенном выше...
вопрос задан: 14 July 2012 13:51
0
ответов

Что быстрее в CUDA :Постоянная память или Память текстур?

Я знаю, что и на выключенном -чипе DRAM и в кэше. Но что быстрее по скорости доступа? Или при каких обстоятельствах один быстрее другого?
вопрос задан: 14 July 2012 02:23
0
ответов

Как отлаживать код ядра CUDA с помощью Visual Studio 2008?

Эй, Я использую Visual Studio 2008 с CUDA 3.2. Я пытаюсь выполнить отладку функции с этой сигнатурой: MatrixMultiplication_Kernel <<< dimGrid, dimBlock >>> (Md, Nd, Pd, Width); ...
вопрос задан: 12 July 2012 20:26
0
ответов

Где CUDA выделяет фрейм стека для ядер?

Мой вызов ядра завершается неудачно из-за «нехватки памяти». Он значительно использует фрейм стека, и мне было интересно, является ли это причиной его отказа. При вызове nvcc с параметром --ptxas-options = -v он печатает ...
вопрос задан: 12 July 2012 20:15
0
ответов

Вычисление собственных значений/собственных векторов сотен малых матриц с использованием CUDA

У меня есть вопрос о собственной -декомпозиции сотен небольших матриц с использованием CUDA. Мне нужно вычислить собственные значения и собственные векторы сотен (, например. 500 )малых (64 -по -64 )действительных симметричных...
вопрос задан: 9 July 2012 18:53
0
ответов

Отсутствие примеров динамического параллелизма CUDA 5

Я гуглил и смог найти только тривиальный пример нового динамического параллелизма в Compute Capability 3.0 в одном из их технических сводок, связанных отсюда. Я знаю, что ...
вопрос задан: 6 July 2012 16:42
0
ответов

ГП читает из ЦП или ЦП записывает в ГП?

Я новичок в параллельном программировании. У меня есть вопрос, который может показаться глупым, но я не получил окончательного ответа, когда искал его в Google. В вычислениях на GPU есть устройство, то есть GPU и...
вопрос задан: 2 July 2012 19:14
0
ответов

Передача класса C++/CUDA в SourceModule PyCUDA

У меня есть класс, написанный на C++, который также использует некоторые определения из cuda _runtime.h, это часть проекта с открытым исходным кодом под названием ADOL -C, вы можете посмотреть здесь! Это работает, когда я использую CUDA -C,...
вопрос задан: 2 July 2012 08:54
0
ответов

CUDA :Когда использовать разделяемую память, а когда полагаться на кэширование L1?

После выпуска Compute Capability 2.0 (Fermi )я задался вопросом, остались ли еще варианты использования разделяемой памяти. То есть, когда лучше использовать разделяемую память, чем просто позволить L1 творить свою магию...
вопрос задан: 30 June 2012 16:31
0
ответов

Эквивалент usleep() в ядре CUDA?

Я хотел бы вызвать что-то вроде usleep() внутри ядра CUDA. Основная цель состоит в том, чтобы заставить все ядра графического процессора находиться в спящем режиме или в режиме ожидания в течение нескольких миллисекунд — это часть некоторых проверок работ
вопрос задан: 29 June 2012 01:16
0
ответов

Синхронизация различных разделов в ядре CUDA

У меня есть ядро ​​CUDA, которое вызывает ряд функций устройства. Как лучше всего получить время выполнения каждой из функций устройства? Как лучше всего получить время выполнения...
вопрос задан: 26 June 2012 14:10
0
ответов

Работа с большими операторами switch в CUDA

Я понимаю, что ветвление в CUDA не рекомендуется, так как это может неблагоприятно влияют на производительность. В своей работе мне приходится реализовывать большие операторы switch, содержащие более нескольких десятков...
вопрос задан: 25 June 2012 10:15
0
ответов

Обработка изображений на CUDA или OpenCV?

Мне нужно разработать программу обработки изображений для моего проекта, в котором я должен подсчитывать количество автомобилей на дороге. Я использую программирование на GPU. Должен ли я выбрать программу OpenCV с обработкой на GPU...
вопрос задан: 24 June 2012 16:14
0
ответов

Параметр POST AspNet WebApi имеет значение NULL при отправке XML

У меня есть служба веб-API, изначально использующая бета-биты, которые я перестроил, используя биты-кандидаты на выпуск, и теперь у меня есть эта проблема. У меня есть действие POST, которое принимает сложный параметр как единственный...
вопрос задан: 22 June 2012 14:11
0
ответов

Параллельные вычисления на графическом процессоре с использованием OpenCV

У меня есть приложение, которое требует параллельной обработки нескольких изображений, чтобы поддерживать скорость в реальном времени. Насколько я понимаю, я не могу вызывать функции графического процессора OpenCV в многопоточном...
вопрос задан: 21 June 2012 15:25
0
ответов

Тяговый векторизованный поиск :Эффективное сочетание нижней _границы и бинарного _поиска для нахождения положения и существования

Я пытаюсь использовать Thrust, чтобы определить, можно ли найти каждый элемент массива в другом массиве и где (оба массива отсортированы ). Я наткнулся на процедуры векторизованного поиска (нижней _границы и...
вопрос задан: 20 June 2012 19:12
0
ответов

SLI для нескольких графических процессоров

Я новичок в программировании CUDA и работаю над проблемой, требующей нескольких графических процессоров на одной машине. Я понимаю, что для лучшего программирования графики необходимо объединить несколько графических процессоров через SLI....
вопрос задан: 20 June 2012 16:59
0
ответов

как преобразовать тягу::device_vector в необработанный указатель

У меня есть тяга device_vector. Я хочу привести его к необработанному указателю, чтобы я мог передать его ядру. Как я могу это сделать? тяга::device_vector dv(10); //ПРЕДСТАВЛЕНИЕ В RAW kernel<<
вопрос задан: 20 June 2012 11:58
0
ответов

Для CUDA требуется root-доступ?

Я использую GeForce 8400M GS на Ubuntu 10.04 и изучаю программирование на CUDA. Я пишу и запускаю несколько основных программ. Я использовал cudaMalloc, и он продолжал выдавать ошибку, пока я не запустил код...
вопрос задан: 19 June 2012 15:29
0
ответов

Сброс графического процессора и драйвера после ошибки CUDA

Иногда ошибки в моих программах CUDA приводят к поломке графики рабочего стола (в Windows). Как правило, экран остается в некоторой степени читаемым, но когда графика меняется, например, при перетаскивании окна, происходит множество ...
вопрос задан: 19 June 2012 04:56
0
ответов

Как получить адрес адреса переменной (&& — ошибка компилятора)?

У меня небольшой вопрос, который я не могу найти в Интернете. Я использую CUDA для выполнения некоторой работы с графическим процессором, и мне нужны некоторые данные, выделенные на графическом процессоре. Функция cudaMalloc выглядит следующим образом: cu
вопрос задан: 12 June 2012 02:02
0
ответов

CUDA: в какой области памяти хранится массив фиксированного размера?

При настройке массива фиксированного размера в ядре, например: int my_array[100]; В какой области памяти заканчивается массив? В частности, я хотел бы узнать, может ли такой массив храниться в ...
вопрос задан: 8 June 2012 16:12
0
ответов

В чем разница: пропускная способность DRAM и глобальная пропускная способность памяти

Фактическая пропускная способность, достигнутая ядром, сообщается профилировщиком CUDA с использованием четырех показателей: Глобальная пропускная способность загрузки памяти Пропускная способность хранилища глобальной памяти Скорость чтения DRAM Пропу
вопрос задан: 7 June 2012 08:12
0
ответов

Устройство с поддержкой CUDA

Я очень новичок в программировании CUDA. Я просматриваю примеры, которые поставлялись с SDK. Мне удалось скомпилировать код, но при его запуске я получаю следующую ошибку: «clock.cu(177) : CUDA ...
вопрос задан: 7 June 2012 04:23
0
ответов

Должны ли события и потоки CUDA всегда уничтожаться?

Я читаю CUDA By Example и обнаружил, что когда они вводили события, они вызывали cudaEventDestroy для каждого созданного ими события. Однако я заметил, что некоторые более поздние примеры пренебрегли этой очисткой...
вопрос задан: 6 June 2012 18:49
0
ответов

Быстрый алгоритм для вычисления Pi параллельно

Я начинаю изучать CUDA и думаю, что вычисление длинных цифр числа пи было бы хорошим вводным проектом. Я уже реализовал простой метод Монте-Карло, который легко распараллелить. ...
вопрос задан: 5 June 2012 02:11
0
ответов

Nsight пропускает (игнорирует) контрольные точки в VS10 Cuda работает нормально, nsight постоянно пропускает несколько контрольных точек

Я использую nsight 2.2, Toolkit 4.2, последнюю версию драйвера nvidia, Я использую пару графических процессоров на своем компьютере. Сборка по индивидуальному заказу 4.2. Я установил «генерировать вывод GPU» в свойствах проекта CUDA, монитор nsight ...
вопрос задан: 1 June 2012 16:07
0
ответов

Как количественно оценить компромиссы при обработке устройств CUDA для ядер C?

Недавно я перешел с GTX480 на GTX680 в надежде, что утроенное количество ядер даст значительный прирост производительности в моем коде CUDA. К своему ужасу, я обнаружил, что моя память...
вопрос задан: 26 May 2012 10:38