0
ответов

Как разделены ли блоки CUDA на деформации?

Если я начну ядро ​​с сеткой, блоки которой имеют размеры: dim3 block_dims (16,16); Как блоки сетки теперь разделяются на деформации? Первые два ряда такого блока формируют одну деформацию, или первую ...
вопрос задан: 16 March 2018 21:57
0
ответов

Есть ли ограничение на локальную память OpenCL?

Сегодня я добавил в свое ядро ​​еще четыре __local переменных, чтобы вывести промежуточные результаты. Но просто добавив еще четыре переменных в сигнатуру ядра и добавление соответствующих аргументов ядра ...
вопрос задан: 22 November 2017 22:02
0
ответов

Как создать ассемблер графического процессора или управлять им?

Есть ли у кого-нибудь опыт создания / управления машинным кодом графического процессора, возможно, во время выполнения? Я заинтересован в изменении кода ассемблера графического процессора, возможно, во время выполнения с минимальными накладными расходами
вопрос задан: 27 October 2017 21:42
0
ответов

Почему в CUDA ограничен постоянный размер памяти?

В соответствии с "Руководством по программированию CUDA C", постоянный доступ к памяти дает преимущества только в том случае, если происходит попадание в многопроцессорный постоянный кэш (Раздел 5.3.2.4 )1. В противном случае может быть еще больше запросо
вопрос задан: 20 September 2017 09:01
0
ответов

CUDA: Сколько всего параллельных потоков?

У меня есть GeForce GTX 580, и я хочу сделать заявление об общем количестве потоков, которые (в идеале) могут быть запущены параллельно, для сравнения с 2 или 4 многоядерными CPU. deviceQuery дает ...
вопрос задан: 30 July 2017 06:27
0
ответов

Проблемы классификации изображений в реальном времени в Python с помощью нейронных сетей

Я пытаюсь использовать caffe и python для классификации изображений в реальном времени. Я использую OpenCV для потоковой передачи с моей веб-камеры в одном процессе и в отдельном процессе, используя caffe для выполнения изображения ...
вопрос задан: 24 May 2017 05:47
0
ответов

OpenCL FFT на оборудовании Nvidia и AMD?

Я работаю над проектом, в котором необходимо использовать БПФ на видеокартах Nvidia и AMD. Сначала я искал библиотеку, которая работала бы на обоих (, думая, что это будет способ OpenCL ), но я...
вопрос задан: 23 May 2017 11:53
0
ответов

Ошибка компиляции Cuda - ожидаемое первичное выражение

эта программа в порядке, но я все еще получаю ошибку, какое-то предложение? Программа: #include "dot.h" #include #include #include int main (int argc, ...
вопрос задан: 24 April 2017 12:05
0
ответов

Как блоки/деформации/потоки CUDA сопоставляются с ядрами CUDA?

Я использую CUDA уже несколько недель, но у меня есть некоторые сомнения по поводу распределения блоков/перекосов/потоков. Я изучаю архитектуру с дидактической точки зрения (университетский проект ), так что...
вопрос задан: 3 April 2017 07:37
0
ответов

Могу ли я выполнить предварительную выборку определенных данных на определенный уровень кеша в ядре CUDA?

Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2. Однако в справочном руководстве CUDA я ничего не могу найти об этом. Dues CUDA позволяет моему коду ядра выполнять предварительную выборку определенных данн
вопрос задан: 19 March 2017 22:28
0
ответов

Стоит ли мне изучить PTX для оптимизации ядра? Если да, то как?

Рекомендуете ли вы прочитать код PTX вашего ядра, чтобы узнать, как оптимизировать ваши ядра дальше? Один пример: я читал, что по коду PTX можно узнать, сработала ли автоматическая развертка цикла. Если ...
вопрос задан: 9 January 2017 18:24
0
ответов

Выбор между GeForce или Quadro GPU для машинного обучения через TensorFlow

Есть ли заметная разница в производительности TensorFlow при использовании графических процессоров Quadro и GeForce? например он использует операции с двойной точностью или что-то еще, что может вызвать падение GeForce ...
вопрос задан: 30 November 2016 14:20
0
ответов

Когда вызывать cudaDeviceSynchronize?

когда действительно необходим вызов функции cudaDeviceSynchronize?. Насколько я понял из документации CUDA, ядра CUDA асинхронны, поэтому кажется, что нам следует вызывать...
вопрос задан: 16 May 2016 10:15
0
ответов

Как вызвать функцию хоста в ядре CUDA?

Как следует из следующей ошибки, вызов функции хоста ('rand') в ядре недопустим, и мне интересно, есть ли решение для этого, если мне нужно это сделать. ошибка: вызов функции хоста ("...
вопрос задан: 10 May 2016 10:09
0
ответов

Должен ли я объединить два похожих ядра с помощью оператора if, что может привести к потере производительности?

У меня есть 2 очень похожие функции ядра в том смысле, что код почти такой же, но с небольшой разницей. В настоящее время у меня есть 2 варианта: Написать 2 разных метода (но очень похожих) ...
вопрос задан: 15 April 2016 22:24
0
ответов

What do work items execute when conditionals are used in GPU programming?

If you have work items executing in a wavefront and there is a conditional such as: if(x){ ... } else{ .... } What do the work-items execute? is it the case whereby all ...
вопрос задан: 30 March 2016 22:21
0
ответов

Сколько «ядер CUDA» имеет каждый мультипроцессор графического процессора?

Я знаю, что в устройствах до архитектуры Fermi было 8 SP в одном мультипроцессоре. Такое же количество в архитектуре Ферми?
вопрос задан: 2 March 2016 17:01
0
ответов

Целочисленные вычисления на GPU

Для моей работы это ' Особенно интересно выполнять целочисленные вычисления, для которых, очевидно, не были созданы графические процессоры. У меня вопрос: поддерживают ли современные графические процессоры эффективные целочисленные операции? Я понимаю ..
вопрос задан: 26 January 2016 17:10
0
ответов

Как измерить внутреннее время ядра в NVIDIA CUDA?

Я хочу измерить время внутреннего ядра графического процессора, как его измерить в NVIDIA CUDA? например __global__ void kernelSample() { здесь какой-то код получить время начала какой-то код здесь получить время остановки какой-то ...
вопрос задан: 15 January 2016 10:15
0
ответов

OpenCL AMD против производительности NVIDIA

Я реализовал простое ядро, которое представляет собой своего рода свертку. Я измерял его на NVIDIA GT 240. Это заняло 70 мс при записи на CUDA и 100 мс при записи на OpenCL. Хорошо, подумал я, компилятор NVIDIA ...
вопрос задан: 12 September 2015 07:02
0
ответов

Расчет определителя с помощью CUDA [закрыто]

Есть ли какая-либо библиотека или свободно доступный код, который будет вычислять определитель небольшой (6x6 )матрицы двойной точности полностью на графическом процессоре?
вопрос задан: 7 April 2015 07:16
0
ответов

Тяга: slow_by_key медленнее, чем ожидалось

У меня есть следующий код: thrust :: device_vector unique_idxs (N); thrust :: device_vector sizes (N); thrust :: pair :: iterator, thrust :: ...
вопрос задан: 27 February 2015 12:07
0
ответов

физическая память на устройствах AMD: локальная или частная

Я пишу алгоритм на OpenCL, в котором мне нужно, чтобы каждая рабочая единица запоминала значительную часть данных, скажем, что-то между длинным [70] и long [200] или около того на ядро. Последние устройства AMD имеют 32 ...
вопрос задан: 20 November 2014 11:29
0
ответов

Есть ли способ узнать и / или ограничить использование графического процессора процессом в Windows?

Я бы хотел запустить процесс с интенсивным использованием ЦП и ГП на некоторых машинах, но эти процессы не должны мешать выполнению задач пользователя. Поэтому мне нужно ограничить или хотя бы обнаружить использование графического процессора моими процес
вопрос задан: 16 September 2014 22:47
0
ответов

Как эффективно собирать данные из потоков в CUDA?

У меня есть приложение, которое решает систему уравнений в CUDA, я точно знаю, что каждый поток может найти до 4-х решений, но как потом скопировать обратно на хост? Я передаю огромный массив с...
вопрос задан: 24 January 2014 16:26
0
ответов

В OpenCL, что делает mem_fence () в отличие от барьера ()?

В отличие от барьера () (который, я думаю, я понимаю), mem_fence () не влияет на все элементы в рабочей группе. В спецификации OpenCL сказано (раздел 6.11.10) для mem_fence (): Заказы на загрузку и сохранение работы -...
вопрос задан: 22 August 2013 13:02
0
ответов

как оптимизировать умножение матриц с помощью OpenACC?

Я изучаю OpenACC (с помощью компилятора PGI )и пытаюсь оптимизировать пример умножения матриц. Самая быстрая реализация, которую я придумал, это следующая :void matrix _mul (float *limited r,...
вопрос задан: 14 September 2012 01:15
0
ответов

В фрагментном шейдере GLSL как получить доступ к texel на определенном уровне mipmap?

Я использую OpenGL для выполнения некоторых вычислений GPGPU посредством комбинации одного вершинного шейдера и одного фрагментного шейдера , Мне нужно сделать вычисления на изображении в другом масштабе. Я хотел бы использовать ...
вопрос задан: 18 August 2012 15:42
0
ответов

Библиотека CURAND -Ошибка компиляции -Неопределенная ссылка на функции

У меня есть следующий код, который я пытаюсь скомпилировать с помощью nvcc. Код:#включить #включить #включить #include int main (void ){...
вопрос задан: 31 July 2012 06:47
0
ответов

Связывание со сторонними библиотеками CUDA замедляет cudaMalloc

Не секрет, что в CUDA 4.x первый вызов cudaMalloc может быть смехотворно медленным (, о чем сообщалось несколько раз ), по-видимому, ошибка в драйверах CUDA. Недавно я заметил странное поведение :в...
вопрос задан: 26 July 2012 08:34