0
ответов

Вызов ядра из ядра

Дополнительный вопрос из :CUDA :Вызов функции __устройства __из ядра Я пытаюсь ускорить операцию сортировки. Далее следует упрощенная псевдоверсия :// какая-то дорогостоящая операция подкачки __устройство __подкачка (...
вопрос задан: 23 May 2017 11:54
0
ответов

OpenCL FFT на оборудовании Nvidia и AMD?

Я работаю над проектом, в котором необходимо использовать БПФ на видеокартах Nvidia и AMD. Сначала я искал библиотеку, которая работала бы на обоих (, думая, что это будет способ OpenCL ), но я...
вопрос задан: 23 May 2017 11:53
0
ответов

Как мне запустить приложение CUDA в Visual Studio 2010?

Прямой вопрос: как создать простой проект CUDA hello world в Visual Studio 2010? Предыстория: Я написал ядра CUDA. Я хорошо знаком с файлами .vcproj из Visual ...
вопрос задан: 23 May 2017 11:45
0
ответов

Умножение матриц с использованием CUDA

Я заинтересовался умножением матриц на CUDA. Результирующая матрица продукта всегда равна нулю. Я прочитал несколько примеров кодов, таких как матричное умножение в cuda, для решения моей проблемы, но все в ...
вопрос задан: 23 May 2017 11:45
0
ответов

Как выбрать размеры сетки и блока для ядер CUDA?

Это вопрос о том, как определить размер сетки, блока и потока CUDA. Это дополнительный вопрос к опубликованному здесь: https://stackoverflow.com/a/5643838/1292251 После этого...
вопрос задан: 23 May 2017 10:31
0
ответов

Переменная массива общей памяти Cuda

Я пытаюсь объявить переменную для умножения матриц следующим образом: __shared__ float As [BLOCK_SIZE] [BLOCK_SIZE]; Я пытаюсь сделать так, чтобы пользователь мог вводить размер матрицы, чтобы ...
вопрос задан: 23 May 2017 10:30
0
ответов

выделение памяти внутри ядра CUDA

У меня есть следующий (фрагмент) ядра.__global__ пустая равнина (int * geneVec, float * probs, int * nComponents, float * randomNumbers, int * nGenes) { int xid = threadIdx.x + (blockDim.x * blockIdx....
вопрос задан: 23 May 2017 10:30
0
ответов

Насколько хороша библиотека графического процессора OpenCV для матричных операций?

Я использую OpenCV для приложения в области компьютерного зрения. Я хотел бы ускорить некоторые операции с матрицами, (матрицы довольно большие )на графическом процессоре, и хочу по возможности избежать кодирования непосредственно в CUDA C....
вопрос задан: 23 May 2017 10:30
0
ответов

Почему «a = (b> 0)? 1: 0» лучше, чем «if -else »в CUDA?

Не могли бы вы сказать мне, почему a = (b> 0)? 1: 0 лучше, чем if (b> 0) a = 1; иначе a = 0; версия в CUDA? Приведите подробности. Большое спасибо. Yik
вопрос задан: 18 May 2017 02:35
0
ответов

Ошибка компиляции Cuda - ожидаемое первичное выражение

эта программа в порядке, но я все еще получаю ошибку, какое-то предложение? Программа: #include "dot.h" #include #include #include int main (int argc, ...
вопрос задан: 24 April 2017 12:05
0
ответов

In CUDA, what is memory coalescing, and how is it achieved?

What is "coalesced" in CUDA global memory transaction? I couldn't understand even after going through my CUDA guide. How to do it? In CUDA programming guide matrix example, accessing the matrix row by ...
вопрос задан: 8 April 2017 10:35
0
ответов

XmlHttpRequest onprogress interval

Я использую XmlHttpRequests для загрузки изображений на сервер, и я хотел бы показать пользователю прогресс этих загрузок. К сожалению, интервал между вызовами моего обработчика событий onprogress слишком велик ...
вопрос задан: 8 April 2017 08:10
0
ответов

Как блоки/деформации/потоки CUDA сопоставляются с ядрами CUDA?

Я использую CUDA уже несколько недель, но у меня есть некоторые сомнения по поводу распределения блоков/перекосов/потоков. Я изучаю архитектуру с дидактической точки зрения (университетский проект ), так что...
вопрос задан: 3 April 2017 07:37
0
ответов

Могу ли я выполнить предварительную выборку определенных данных на определенный уровень кеша в ядре CUDA?

Я понимаю, что графические процессоры Fermi поддерживают предварительную выборку в кэш L1 или L2. Однако в справочном руководстве CUDA я ничего не могу найти об этом. Dues CUDA позволяет моему коду ядра выполнять предварительную выборку определенных данн
вопрос задан: 19 March 2017 22:28
0
ответов

סאָרטינג 3 ערייז דורך שליסל אין קודאַ (ניצן שטויס טאָמער)

איך האָבן 3 ערייז פון די זעלבע גרייס (מער ווי 300.000 עלעמענטן). איין מענגע פון ​​לאָזנ שווימען נומערן און צוויי ערייזאַז פון ינדאַסיז. אַזוי, פֿאַר יעדער נומער איך האָבן 2 ידס. אַלע די 3 ערייז זענען שוין אין גפּו גלאבאלע ...
вопрос задан: 27 February 2017 11:33
0
ответов

Могу ли я запустить CUDA на встроенном графическом процессоре Intel?

У меня очень простой ноутбук Toshiba с процессором i3. Кроме того, у меня нет дорогой видеокарты. В настройках дисплея я вижу Intel (HD) Graphics как адаптер дисплея. Планирую изучить ...
вопрос задан: 16 February 2017 18:00
0
ответов

На что похож CUDA? Для чего это? Каковы преимущества? А с чего начать?

Я заинтересован в разработке новых технологий и подумывал попробовать CUDA. Теперь ... их документация слишком техническая и не дает ответов, которые я ищу. Кроме того, я бы ...
вопрос задан: 23 January 2017 20:38
0
ответов

Стоит ли мне изучить PTX для оптимизации ядра? Если да, то как?

Рекомендуете ли вы прочитать код PTX вашего ядра, чтобы узнать, как оптимизировать ваши ядра дальше? Один пример: я читал, что по коду PTX можно узнать, сработала ли автоматическая развертка цикла. Если ...
вопрос задан: 9 January 2017 18:24
0
ответов

Установить несколько версий CUDA и CUDNN

В настоящее время я использую CUDA версии 7.5 с CuDNN версии 5 для MatConvNet. Я хотел бы установить версию 8.0 и cuDNN версии 5.1, и я хочу знать, будут ли конфликты, если у меня будет ...
вопрос задан: 26 December 2016 11:46
0
ответов

Использует ли -опцию -быстрая -математика для преобразования умножения SP во внутренние числа?

Я бегло просмотрел руководство по программированию CUDA с -использованием -быстрой -математической оптимизации, и хотя в приложении C упоминаются деления, которые должны быть преобразованы во встроенные, но нет упоминания о...
вопрос задан: 19 November 2016 23:36
0
ответов

Удаление __syncthreads() в уменьшении уровня деформации CUDA

Следующий код суммирует каждые 32 элемента в массиве с самым первым элементом каждой группы из 32 элементов: int i = threadIdx.x; int warpid = i&31; if(warpid < 16){ s_buf[i] += s_buf[i+16];...
вопрос задан: 9 November 2016 09:31
0
ответов

Как планировщики деформации графического процессора nVIDIA CC 2.1 выдают две инструкции одновременно для деформации?

Примечание. Этот вопрос касается устройств nVIDIA Compute Capability 2.1. Следующая информация получена из Руководства по программированию CUDA v4.1: В устройствах с вычислительными возможностями 2.1 каждый SM имеет ...
вопрос задан: 9 November 2016 09:30
0
ответов

Зачем вообще знать о CUDA Warps?

У меня GeForce GTX460 SE, так что это :6 SM x 48 ядер CUDA = 288 ядер CUDA. Известно, что в одном Warp содержится 32 потока, и что в одном блоке одновременно (за раз )может выполняться только один...
вопрос задан: 9 November 2016 09:18
0
ответов

Атомарные операции в CUDA? Какой файл заголовка включить?

Для использования атомарных операций в CUDA необходимо ли включать какой-либо файл заголовка CUDA? Руководство по программированию на CUDA, кажется, придерживается этой темы. Приведенный ниже код glmax.cu дает мне ...
вопрос задан: 16 October 2016 14:25
0
ответов

Список атомарных операций CUDA

Мне было интересно, есть ли полный список атомарных операций. Я не мог найти что-то подобное в Интернете.
вопрос задан: 16 October 2016 14:14
0
ответов

Что такое банковский конфликт? (Программирование на Cuda / OpenCL)

Я читал руководство по программированию для CUDA и OpenCL и не могу понять, что такое конфликт банков. Они просто пытаются понять, как решить проблему, не вдаваясь в подробности ...
вопрос задан: 4 October 2016 14:02
0
ответов

Сохранение кэша L1 в ядрах CUDA

Я понимаю, что общая память на GPU не сохраняется в разных ядрах. Однако сохраняется ли кеш L1 при разных вызовах ядра?
вопрос задан: 24 August 2016 14:07
0
ответов

Методы уменьшения задержки передачи данных от центрального процессора к графическому процессору

Я искал способы уменьшить задержку, вызванную передачей данных между процессором и графическим процессором. Когда я впервые начал использовать CUDA, я заметил, что передача данных между CPU и ...
вопрос задан: 15 July 2016 12:50
0
ответов

Сортировка CUDA Thrust_по_ключу, когда ключ является кортежем, с которым работает zip_итератор#39; с пользовательским предикатом сравнения

Я просмотрел много вопросов здесь на что-то похожее и их довольно много, хотя и с одним небольшим изменением. Я пытаюсь отсортировать значения с помощью итератора zip_в качестве составного ключа....
вопрос задан: 24 June 2016 09:07
0
ответов

Как вывести предварительно обработанный код И скомпилировать его (Visual Studio)

Я генерирую вывод препроцессора (.i) из Visual Studio, но также хочу выполнить сборку . Есть ли комбинация флагов, которые будут выводить файл .i без остановки компилятора ...
вопрос задан: 23 June 2016 15:51