Я новичок в CUDA и мне нужна помощь в понимании некоторых вещей. Мне нужна помощь в распараллеливании этих двух циклов for. В частности, как настроить dimBlock и dimGrid, чтобы это работало быстрее. Я знаю это ...
Я пытаюсь установить модуль ускорения Мануэля Чакраварти, но у меня возникли проблемы с зависимостью от cuda. Я установил драйвер разработчика CUDA и набор инструментов CUDA от nvidia. Чтобы...
Я успешно использовал cuda-memcheck для получения ошибок о неправильном доступе к памяти. Компиляция кода cuda с -g -G дала хорошие исходные местоположения, подобные этому: ========= Ошибка: процесс не завершен ...
Я новичок в программировании для нескольких графических процессоров, и у меня есть несколько вопросов о вычислениях с несколькими графическими процессорами. Например, давайте возьмем пример скалярного произведения. Я запускаю поток ЦП, который создает 2 б
Я пытаюсь реализовать классическое ядро скалярного произведения для массивов двойной точности с атомарное вычисление окончательной суммы по различным блокам. Я использовал atomicAdd для двойной точности, поскольку ...
Я получаю некоторые данные из библиотеки на хосте в качестве указателя на массив. Как мне создать device_vector, который хранит эти данные на устройстве? int * data; int num; get_data_from_library (& data, & num ...
У меня есть функция устройства / хоста, которая использует постоянную память. Он работает нормально на устройстве, но на хосте кажется, что эта память остается неинициализированной. #include
#include const ...
Я провел простой тест texture3D и обнаружил странное поведение при копировании данных на устройство. Функция cudaMemcpy3D возвращает «недопустимый аргумент». Я обнаружил, что проблема связана с cudaExtent. ...
Я пытаюсь вычислить среднее значение определенного массива, который содержит точки (x, y).
Можно ли использовать тягу, чтобы найти среднюю точку, представленную в виде точки (x, y)?
я мог бы также представить ...
Я пытаюсь изменить программу GPL, написанную на C. Моя цель - заменить один метод реализацией CUDA, что означает, что мне нужно компилировать с nvcc вместо gcc. Мне нужна помощь в создании ...
Мне интересно, каковы накладные расходы на выполнение вызова ядра cuda в C / C ++, например: somekernel1 <<< блоки, потоки >>> (аргументы);
somekernel2 <<< блоки, потоки> & ...
Использование различных потоков для ядер CUDA делает возможным одновременное выполнение ядер. Поэтому n ядер на n потоках теоретически могут работать одновременно, если они вписываются в аппаратное обеспечение, ...
Моя установка для CUDA Visual Studio 2010 и 2008 SP1 (требуется CUDA).
Parallel NSight 1.51 CUDA 4.0 RC или 3.2 и Thrust В основном, я следовал руководству по:
http: //www.ademiller.com/blogs/tech / ...
В моем приложении я должен обрабатывать группу объектов (скажем, целых чисел), которые впоследствии разделяются и сортируются на более мелкие сегменты. Для этого я храню элементы в одном непрерывном массиве ...
Я использую CUDA 4.1 и GCC 4.5 ... (ФИНАЛЬНО! CUDA поддерживает GCC 4.5, но все еще жду GCC 4.6). В любом случае, возможно ли использовать C++11 с CUDA 4.1? Я пробовал передавать: --compiler-options "-std=...
У меня есть Tesla C2070, которая должна иметь 5636554752 байт памяти. Однако это выдает ошибку: int *buf_d = NULL; err = cudaMalloc((void **)&buf_d, 1000000000*sizeof(int)); if( err ...
Мне любопытно, выполняется ли cudaMemcpy на CPU или GPU при копировании с хоста на устройство? Другими словами, копирование - это последовательный процесс или это делается параллельно? Позвольте мне объяснить, почему я спрашиваю ...
Проблема: Имея .h, я хочу определить real как double, если компилирую для c/c++ или для cuda с вычислительной способностью >= 1.3. Если компиляция для cuda с вычислительной способностью < 1.3, то определить ...
Я подключаюсь к кластеру графического процессора извне и не знаю, как выбрать устройство, на котором будут запускаться мои программы CUDA. Я знаю, что в кластере два GPU Tesla, и я хотел бы выбрать ...
Я читаю официальный документ NVIDIA под названием «Моделирование частиц с помощью CUDA» Саймона Грина. В нем описывается пример частиц SDK и используемые алгоритмы. Обсуждая производительность кода, ...
Необходима ли установленная видеокарта с поддержкой CUDA (в Linux) для компиляции программ CUDA с nvcc? Или можно компилировать программы везде и запускать только на таких системах?
Может ли cudaMemcpy использоваться для памяти, выделенной cudaMallocPitch? Если нет, можете ли вы сказать, какую функцию следует использовать. cudaMallocPitch возвращает линейную память, поэтому я полагаю, что cudaMemcpy должен быть ...
Я делаю следующее: __shared__ int exForBlockLessThanP = totalElementLessThanPivotEntireBlock[blockIdx.x]; где totalElementLessThanPivotEntireBlock - массив на GPU. Компилятор ...
Я использую Cuda SDK 4.0 и сталкиваюсь с проблемой, которая потребовала 2 дней, чтобы проработать следующий код. #include
#include
void main (int argc, ...
Я обращаюсь к удаленному компьютеру с хорошей картой nVidia для вычислений CUDA, но я не могу найти способ узнать, какую карту он использует и каковы спецификации CUDA (версия и т. д.). Я использовал команду "lspci" ...
Следующая простая программа никогда не завершается, если выполняется вызов cudaMalloc. Если закомментировать только cudaMalloc, то программа завершается нормально. #include
На моем компьютере установлена Ubuntu 10.10 с gcc 4.4.4. Я пытаюсь скомпилировать несколько файлов mex, использующих CUDA, и получаю следующее сообщение об ошибке: >> cns_build ('hmax')
компиляция ...
/ home / leMe / hmax / cns / source / ...
как лучше всего работать с чередующимися данными в толчке , скажем, я хочу добавить значения с длиной чередования, равной 3, например: [1, 2, 3, 4, 5, 6] даст [6, 15] или обратное чередование ...
Я читал, что можно использовать запуск ядра для синхронизации различных блоков, то есть, если я хочу, чтобы все блоки завершили операцию 1, прежде чем они продолжатся к операции 2 я должен поместить операцию 1 в одно ядро ...