Numpy можно «связать/скомпилировать» с различными реализациями BLAS (MKL, ACML, ATLAS, GotoBlas и т. д. ). Это не всегда просто настроить, но это возможно. Можно ли также «...
У меня есть приложение, которое требует параллельной обработки нескольких изображений, чтобы поддерживать скорость в реальном времени. Насколько я понимаю, я не могу вызывать функции графического процессора OpenCV в многопоточном...
В моей программе OpenCL я собираюсь получить более 60 глобальных буферов памяти, к которым каждое ядро должно иметь доступ. Каков рекомендуемый способ сообщить каждому ядру...
Фактическая пропускная способность, достигнутая ядром, сообщается профилировщиком CUDA с использованием четырех показателей: Глобальная пропускная способность загрузки памяти
Пропускная способность хранилища глобальной памяти
Скорость чтения DRAM
Пропу
Я использую nsight 2.2, Toolkit 4.2, последнюю версию драйвера nvidia, Я использую пару графических процессоров на своем компьютере. Сборка по индивидуальному заказу 4.2. Я установил «генерировать вывод GPU» в свойствах проекта CUDA, монитор nsight ...
Я сталкивался с несколькими ситуациями, когда утверждалось, что скалярное произведение в GLSL в конечном итоге выполняется за один цикл. Например: процессоры вершин и фрагментов работают на...
Руководство по программированию CUDA представило концепцию функции голосования деформации, "_all", "_any" и "__ballot". У меня вопрос: какие приложения будут использовать эти 3 функции?
У меня нет большого опыта работы с графическими процессорами, поэтому, пожалуйста, простите меня за невежество. В настоящее время GPU используются как GPGPU для программирования общего назначения. Но мне было интересно, есть ли у графических процессоров з
Предполагается, что в Linux GPU можно найти с помощью команды lspci | грэп VGA. Он отлично работает в Ubuntu, но когда я пытаюсь использовать то же самое в CentOS, он говорит, что команда lspci не найдена. Как я могу проверить наличие...
Сейчас у меня есть параллельный цикл for, похожий на этот:int testValues[16]={5,2,2,10,4,4,2,100,5,2,4,3,29,4,1,52}; parallel_for (1, 100, 1, [&](int i){ int var4; int values[16]={-1,-1,-1,-...
У меня есть устаревшее приложение для просмотра карт, использующее WinForms. Оно очень медленное (раньше скорость была приемлемой, но появились Google Maps, Google Earth). и пользователи избалованы. Теперь мне разрешено делать, если ...
Когда мы можем получить хорошую скорость с OpenGL, так как он использует память текстур и множество встроенных графических функций (смешивание, MIP-карта и т.д.). Зачем нам OpenCL (медленный из-за буферов openCL) интероперабельность...
В некотором коде нам нужно получить авто-векторы и авто-значения для обобщенной проблемы собственных значений с симметричными действительными матрицами (Ax=lamba Bx). Этот код использует DSPGVX от LACPACK. Мы хотели ускорить его...
Каков наилучший шаблон для эффективного вычисления графическим процессором «антифункциональных» подпрограмм, которые обычно зависят от позиционированная память пишет вместо чтения? Например. например, вычисление гистограммы, сортировка, ...
Я работаю над частью кода OpencL для специализированной матричной функции: для вектора v Dx1, двух матриц DxD A и B и константы c вернуть вектор r 1xD, где r [i] = c * sum_over_j (v [j ] * A [i] [j] ...
Я ищу самый быстрый способ декодировать кадры локального видео в формате mpeg-4 на iPhone. Меня просто интересуют значения яркости пикселей в каждом 10-м кадре. Мне не нужно рендерить видео ...
Я понимаю, что C ++ AMP ускоряется графическими процессорами, поддерживающими DirectX 11.
Однако у меня вопрос, если скомпилированная программа C ++ AMP работать на машине без графического процессора, совместимого с DirectX 11, что происходит? ...
Я хочу написать программу для GPU (предпочтительно OpenCL), и большая часть вычислений состоит из подсчета количества единиц в битовом массиве (упакованы как длинные или целые). Итак, на современных процессорах я бы ...
Для независимости от платформы (настольный компьютер, облако, мобильный телефон, ...) было бы здорово использовать OpenCL для разработки GPGPU, когда скорость имеет значение. Я знаю, что Google продвигает RenderScript в качестве альтернативы, но кажется
Мне любопытно, выполняется ли cudaMemcpy на CPU или GPU при копировании с хоста на устройство? Другими словами, копирование - это последовательный процесс или это делается параллельно? Позвольте мне объяснить, почему я спрашиваю ...
Я делаю следующее: __shared__ int exForBlockLessThanP = totalElementLessThanPivotEntireBlock[blockIdx.x]; где totalElementLessThanPivotEntireBlock - массив на GPU. Компилятор ...
Я пытался найти подходящую технику глобального освещения, предпочтительно на основе OpenGL или GPGPU, для освещения уличной сцены со статическими объектами и динамическими источниками света (это город .. .
Я прочитал, что должна быть возможность передавать данные пикселей непосредственно внутри памяти графического процессора с использованием объектов пиксельного буфера. Я не понимаю, поддерживается ли PBO в OpenGL ES 2.0. Я обнаружил несогласованность ...
в частности, мне нужно работать с языком затенения GLSL. Я уже установил NDK, SDK и все остальное, и все работает нормально, я запустил пример с openGLES 2, используя NDK, и он работает нормально,…
При вызове ядра CUDA для конкретной конфигурации потока существуют ли какие-либо строгие правила, касающиеся того, в каком пространстве памяти (устройство / хост) должны находиться параметры ядра и какого типа они должны быть? ...
Предположим, имеется много векторных фигур (кривые Безье, определяющие границу фигуры). Например, страница, полная крошечных букв. Как быстрее всего создать из него растровое изображение? Я однажды ...
Мы рассматриваем возможность переноса приложения с выделенного чипа цифровой обработки сигналов на стандартное аппаратное обеспечение x86. Приложение делает много преобразований Фурье, и из краткого исследования, это ...
Какие функции делают OpenCL уникальным выбором для расчетов над OpenGL с GLSL? Несмотря на связанную с графикой терминологию и непрактичные типы данных, есть ли реальное предостережение для OpenGL? Например, ...
Я хочу реализовать межблочный барьер на CUDA, но сталкиваюсь с серьезные проблемы. Я не могу понять, почему это не работает. #include
# include
# include <...