0
ответов

Нампи, BLAS и CUBLAS

Numpy можно «связать/скомпилировать» с различными реализациями BLAS (MKL, ACML, ATLAS, GotoBlas и т. д. ). Это не всегда просто настроить, но это возможно. Можно ли также «...
вопрос задан: 20 July 2012 08:54
0
ответов

Параллельные вычисления на графическом процессоре с использованием OpenCV

У меня есть приложение, которое требует параллельной обработки нескольких изображений, чтобы поддерживать скорость в реальном времени. Насколько я понимаю, я не могу вызывать функции графического процессора OpenCV в многопоточном...
вопрос задан: 21 June 2012 15:25
0
ответов

Правильный способ информировать ядра OpenCL о многих объектах памяти?

В моей программе OpenCL я собираюсь получить более 60 глобальных буферов памяти, к которым каждое ядро ​​должно иметь доступ. Каков рекомендуемый способ сообщить каждому ядру...
вопрос задан: 16 June 2012 11:28
0
ответов

В чем разница: пропускная способность DRAM и глобальная пропускная способность памяти

Фактическая пропускная способность, достигнутая ядром, сообщается профилировщиком CUDA с использованием четырех показателей: Глобальная пропускная способность загрузки памяти Пропускная способность хранилища глобальной памяти Скорость чтения DRAM Пропу
вопрос задан: 7 June 2012 08:12
0
ответов

Nsight пропускает (игнорирует) контрольные точки в VS10 Cuda работает нормально, nsight постоянно пропускает несколько контрольных точек

Я использую nsight 2.2, Toolkit 4.2, последнюю версию драйвера nvidia, Я использую пару графических процессоров на своем компьютере. Сборка по индивидуальному заказу 4.2. Я установил «генерировать вывод GPU» в свойствах проекта CUDA, монитор nsight ...
вопрос задан: 1 June 2012 16:07
0
ответов

GLSL - Действительно ли скалярное произведение стоит только один цикл?

Я сталкивался с несколькими ситуациями, когда утверждалось, что скалярное произведение в GLSL в конечном итоге выполняется за один цикл. Например: процессоры вершин и фрагментов работают на...
вопрос задан: 25 May 2012 23:26
0
ответов

О функции голосования деформации

Руководство по программированию CUDA представило концепцию функции голосования деформации, "_all", "_any" и "__ballot". У меня вопрос: какие приложения будут использовать эти 3 функции?
вопрос задан: 11 May 2012 19:10
0
ответов

Есть ли защита памяти на графических процессорах

У меня нет большого опыта работы с графическими процессорами, поэтому, пожалуйста, простите меня за невежество. В настоящее время GPU используются как GPGPU для программирования общего назначения. Но мне было интересно, есть ли у графических процессоров з
вопрос задан: 2 May 2012 13:37
0
ответов

Как проверить GPU в CentOS Linux

Предполагается, что в Linux GPU можно найти с помощью команды lspci | грэп VGA. Он отлично работает в Ubuntu, но когда я пытаюсь использовать то же самое в CentOS, он говорит, что команда lspci не найдена. Как я могу проверить наличие...
вопрос задан: 25 April 2012 06:12
0
ответов

Самый простой способ использовать GPU для параллельного цикла for

Сейчас у меня есть параллельный цикл for, похожий на этот:int testValues[16]={5,2,2,10,4,4,2,100,5,2,4,3,29,4,1,52}; parallel_for (1, 100, 1, [&](int i){ int var4; int values[16]={-1,-1,-1,-...
вопрос задан: 10 April 2012 09:19
0
ответов

Выгрузка преобразования координат в GPU

У меня есть устаревшее приложение для просмотра карт, использующее WinForms. Оно очень медленное (раньше скорость была приемлемой, но появились Google Maps, Google Earth). и пользователи избалованы. Теперь мне разрешено делать, если ...
вопрос задан: 4 April 2012 19:39
0
ответов

Преимущество взаимодействия OpenCL с OpenGL

Когда мы можем получить хорошую скорость с OpenGL, так как он использует память текстур и множество встроенных графических функций (смешивание, MIP-карта и т.д.). Зачем нам OpenCL (медленный из-за буферов openCL) интероперабельность...
вопрос задан: 29 March 2012 06:00
0
ответов

Плохая производительность при вычислении собственных значений и векторов на графическом процессоре.

В некотором коде нам нужно получить авто-векторы и авто-значения для обобщенной проблемы собственных значений с симметричными действительными матрицами (Ax=lamba Bx). Этот код использует DSPGVX от LACPACK. Мы хотели ускорить его...
вопрос задан: 18 March 2012 23:51
0
ответов

эффективный доступ к произвольной памяти графического процессора с помощью OpenGL

Каков наилучший шаблон для эффективного вычисления графическим процессором «антифункциональных» подпрограмм, которые обычно зависят от позиционированная память пишет вместо чтения? Например. например, вычисление гистограммы, сортировка, ...
вопрос задан: 25 February 2012 02:53
0
ответов

Можно ли оптимизировать этот код OpenCL?

Я работаю над частью кода OpencL для специализированной матричной функции: для вектора v Dx1, двух матриц DxD A и B и константы c вернуть вектор r 1xD, где r [i] = c * sum_over_j (v [j ] * A [i] [j] ...
вопрос задан: 23 February 2012 13:39
0
ответов

Декодировать видеокадры на графическом процессоре iPhone

Я ищу самый быстрый способ декодировать кадры локального видео в формате mpeg-4 на iPhone. Меня просто интересуют значения яркости пикселей в каждом 10-м кадре. Мне не нужно рендерить видео ...
вопрос задан: 17 February 2012 18:43
0
ответов

Будет ли C ++ AMP работать на машине без совместимого графического процессора?

Я понимаю, что C ++ AMP ускоряется графическими процессорами, поддерживающими DirectX 11. Однако у меня вопрос, если скомпилированная программа C ++ AMP работать на машине без графического процессора, совместимого с DirectX 11, что происходит? ...
вопрос задан: 14 February 2012 02:03
0
ответов

OpenCL: 32-битная и 64-битная инструкция popcnt на GPU?

Я хочу написать программу для GPU (предпочтительно OpenCL), и большая часть вычислений состоит из подсчета количества единиц в битовом массиве (упакованы как длинные или целые). Итак, на современных процессорах я бы ...
вопрос задан: 4 February 2012 12:46
0
ответов

Как использовать OpenCL на Android?

Для независимости от платформы (настольный компьютер, облако, мобильный телефон, ...) было бы здорово использовать OpenCL для разработки GPGPU, когда скорость имеет значение. Я знаю, что Google продвигает RenderScript в качестве альтернативы, но кажется
вопрос задан: 25 January 2012 15:33
0
ответов

OpenCL scalar vs vector

У меня простое ядро: __kernel vecadd(__global const float *A, __global const float *B, __global float *C) { int idx = get_global_id(0); C[idx] = A[idx] + B[...
вопрос задан: 22 January 2012 22:06
0
ответов

Выполняется ли cudaMemcpy от хоста к устройству параллельно?

Мне любопытно, выполняется ли cudaMemcpy на CPU или GPU при копировании с хоста на устройство? Другими словами, копирование - это последовательный процесс или это делается параллельно? Позвольте мне объяснить, почему я спрашиваю ...
вопрос задан: 13 January 2012 15:51
0
ответов

initializer not allowed for __shared__ variable for cuda

Я делаю следующее: __shared__ int exForBlockLessThanP = totalElementLessThanPivotEntireBlock[blockIdx.x]; где totalElementLessThanPivotEntireBlock - массив на GPU. Компилятор ...
вопрос задан: 24 December 2011 10:07
0
ответов

Глобальное освещение для статической геометрии

Я пытался найти подходящую технику глобального освещения, предпочтительно на основе OpenGL или GPGPU, для освещения уличной сцены со статическими объектами и динамическими источниками света (это город .. .
вопрос задан: 12 December 2011 13:14
0
ответов

Копирование пикселей непосредственно в память графического процессора с помощью PBO в OpenGL ES 2.0

Я прочитал, что должна быть возможность передавать данные пикселей непосредственно внутри памяти графического процессора с использованием объектов пиксельного буфера. Я не понимаю, поддерживается ли PBO в OpenGL ES 2.0. Я обнаружил несогласованность ...
вопрос задан: 10 December 2011 12:34
0
ответов

Некоторое руководство по OpenGL ES 2 в Android с NDK?

в частности, мне нужно работать с языком затенения GLSL. Я уже установил NDK, SDK и все остальное, и все работает нормально, я запустил пример с openGLES 2, используя NDK, и он работает нормально,…
вопрос задан: 8 December 2011 02:52
0
ответов

Параметры ядер CUDA

При вызове ядра CUDA для конкретной конфигурации потока существуют ли какие-либо строгие правила, касающиеся того, в каком пространстве памяти (устройство / хост) должны находиться параметры ядра и какого типа они должны быть? ...
вопрос задан: 3 December 2011 03:11
0
ответов

Быстрая растеризация текста и векторной графики

Предположим, имеется много векторных фигур (кривые Безье, определяющие границу фигуры). Например, страница, полная крошечных букв. Как быстрее всего создать из него растровое изображение? Я однажды ...
вопрос задан: 22 November 2011 22:22
0
ответов

Стоит ли переносить вычисления FFT на встроенный графический процессор?

Мы рассматриваем возможность переноса приложения с выделенного чипа цифровой обработки сигналов на стандартное аппаратное обеспечение x86. Приложение делает много преобразований Фурье, и из краткого исследования, это ...
вопрос задан: 16 November 2011 21:02
0
ответов

OpenGL против OpenCL, что выбрать и почему?

Какие функции делают OpenCL уникальным выбором для расчетов над OpenGL с GLSL? Несмотря на связанную с графикой терминологию и непрактичные типы данных, есть ли реальное предостережение для OpenGL? Например, ...
вопрос задан: 26 October 2011 19:17
0
ответов

Межблочный барьер на CUDA

Я хочу реализовать межблочный барьер на CUDA, но сталкиваюсь с серьезные проблемы. Я не могу понять, почему это не работает. #include # include # include <...
вопрос задан: 9 October 2011 12:18