0
ответов

Как структурировать большие ядра OpenCL?

Я работал с OpenCL над несколькими проектами, но всегда писал ядро ​​как одну (иногда довольно большую) функцию. Сейчас я работаю над более сложным проектом и хотел бы поделиться ...
вопрос задан: 1 October 2011 18:57
0
ответов

Насколько хорошо NVCC оптимизирует код?

Насколько хорошо NVCC оптимизирует код устройства? Делает ли он какие-либо оптимизации вроде сворачивания констант и устранения общих подвыражений? Например, сократит ли он следующее: float a = 1 / sqrtf(2 * ...
вопрос задан: 23 September 2011 14:39
0
ответов

OpenCL FFT lib for GPUs?

Is there any general FFT lib available for running on the GPU using OpenCL? As far as my knowledge goes, Apple sample code for power-of-two OpenCL FFT is the only such code available? Does any such ...
вопрос задан: 20 September 2011 15:21
0
ответов

Статистика кэш-памяти GPU L1 и L2

Я написал несколько простых бенчмарков, которые выполняют серию глобальных обращений к памяти. Когда я измерял статистику L1 и L2 кэш-памяти, я обнаружил, что (в GTX580, который имеет 16 SMs): всего L1 ....
вопрос задан: 19 September 2011 10:00
0
ответов

Алгоритм разреженной факторизации Холецкого для GPU [закрыто]

Может ли кто-нибудь предоставить мне параллельный алгоритм для вычисления разреженной факторизации Холецкого? Он должен быть пригоден для исполнения на графическом процессоре. Любые ответы на CUDA, OpenCL или даже в псевдокоде ...
вопрос задан: 19 August 2011 14:31
0
ответов

OpenCL - Как запросить ширину SIMD устройства?

В CUDA , существует концепция деформации, которая определяется как максимальное количество потоков, которые могут выполнять одну и ту же инструкцию одновременно в одном обрабатывающем элементе. Для NVIDIA эта деформация ...
вопрос задан: 18 August 2011 09:25
0
ответов

cpu vs gpu - rehefa tsara kokoa ny cpu [mihidy]

Fantatro ohatra maro rehefa haingana kokoa ny GPU noho ny UNITÉ CENTRALE. Saingy misy algorithma (olana) izay sarotra be ny mampifanaraka azy. Azonao omena ohatra na fitsapana ve aho rehefa maharesy ny GPU ny CPU? Edit: ...
вопрос задан: 17 August 2011 13:43
0
ответов

Как работает очередь команд opencl, и что я могу от нее спросить

Я работаю над алгоритмом, который несколько раз выполняет почти одну и ту же операцию. Поскольку операция состоит из некоторой линейной алгебры (BLAS), я подумал, что попробую использовать для этого графический процессор. Я ...
вопрос задан: 11 August 2011 13:55
0
ответов

Пиковая пропускная способность ядра cuda на графическом процессоре NVIDA

У меня есть вопрос о пропускной способности ядра, работающего на графическом процессоре. Предполагая, что его заполнение составляет 0,5, размер блока равен 256: в руководстве по программированию говорится, что лучше иметь много блоков, чтобы они могли .
вопрос задан: 6 August 2011 09:55
0
ответов

CUDA - копировать в массив внутри массива объектов

У меня есть приложение CUDA, над которым я работаю, с массивом объектов; каждый объект имеет указатель на массив std :: pair . Я пытаюсь cudaMemcpy массив объектов, затем ...
вопрос задан: 3 August 2011 16:10
0
ответов

Predicția ramurii pe GPU

Am o întrebare despre predicarea ramurilor în GPU-uri. Din câte știu eu, în GPU-urile, ele predicează cu ramuri. De exemplu, am un cod ca acesta: if (C) A altfel B deci dacă A durează 40 de cicluri și ...
вопрос задан: 3 August 2011 15:38
0
ответов

Как измерить гигафлопс ядра матричного умножения?

В книге «Программирование массово-параллельных процессоров» количество гигфлопс используется для сравнения эффективности различных ядер матричного умножения. Как бы я вычислил это для моих собственных ядер на ...
вопрос задан: 29 July 2011 12:26
0
ответов

PyCUDA: запрос состояния устройства (особенно памяти)

В документации PyCUDA упоминаются вызовы интерфейса драйвера попутно, но я немного думаю и не вижу, как получить такую ​​информацию, как 'SHARED_SIZE_BYTES' из моего кода. Может ли кто-нибудь указать мне на какие-либо ...
вопрос задан: 28 July 2011 10:30
0
ответов

Конфликт банка общей памяти GPU

Я пытаюсь понять, как происходят конфликты банков. если у меня есть массив размером 256 в глобальной памяти, и у меня 256 потоков в одном блоке, и я хочу скопировать массив в общую память. ...
вопрос задан: 28 July 2011 07:44
0
ответов

Дизассемблировать ядро ​​OpenCL?

Я не уверен, возможно ли это. Я хочу глубоко изучить OpenCL, поэтому мне было интересно, есть ли инструмент для дизассемблирования скомпилированного ядра OpenCL. Для обычного исполняемого файла x86 я могу использовать objdump, чтобы получить ...
вопрос задан: 26 July 2011 13:33
0
ответов

GPU - «Доказательная» хеш-функция?

Я подумываю о разработке p2p-сети, которая требует определенного уровня доказательства работы для проверки пользователей (аналогично биткойнам) и регулирования спама / ddos. Из-за природы p2p, единственное ...
вопрос задан: 25 July 2011 21:05
0
ответов

Варианты промахов кеша в GPU

Я использовал ядро ​​OpenCL, которое обращается к 7 глобальным буферам памяти, делает что-то со значениями и сохраняет результат обратно в 8-й глобальный буфер памяти . Как я заметил, по мере увеличения размера ввода ...
вопрос задан: 19 July 2011 15:09
0
ответов

Синхронизация в графических процессорах

У меня есть некоторый вопрос о том, как графические процессоры выполняют синхронизацию. Насколько я знаю, когда деформация встречает барьер (при условии, что она находится в OpenCL), и она знает, что другие деформации той же группы не были…
вопрос задан: 13 July 2011 09:01
0
ответов

Каков механизм переключения контекста в графическом процессоре?

Насколько я знаю, графические процессоры переключаются между деформациями, чтобы скрыть задержку памяти. Но интересно, в каком состоянии переключается перекос? Например, если деформация выполняет загрузку, а данные находятся в кеше ...
вопрос задан: 7 July 2011 03:46
0
ответов

CUDA: Передача аргументов ядру сильно замедляет запуск ядра?

Здесь новичок в CUDA. В моем коде я в настоящее время запускаю ядра много раз в цикле в коде хоста (потому что мне нужна синхронизация между блоками). Итак, я интересно, смогу ли я ...
вопрос задан: 30 June 2011 17:00
0
ответов

Как можно использовать Opengl Es для реализации gpgpu

Я хочу использовать Opengl Es для реализации кода обработки изображений с помощью gpgpu. Я хочу знать, могу ли я использовать Opengl Es для этой цели. Если я могу, то какая версия Opengl Es будет более подходящей для ...
вопрос задан: 13 June 2011 14:21
0
ответов

Какая самая быстрая библиотека для поиска БПФ на графическом процессоре? [закрыто]

Какая библиотека является самой быстрой для поиска БПФ на GPU? Пожалуйста, дайте ответы как для карт NVIDIA, так и для ATI. Также, если возможно, укажите сроки. Спасибо.
вопрос задан: 7 June 2011 21:20
0
ответов

Есть ли расширения Lisp для CUDA?

Я только что заметил, что одним из первых языков для машины соединений WD Hillis был * Lisp , расширение Common Lisp с параллельными конструкциями. Connection-Machine была массово параллельным ...
вопрос задан: 18 May 2011 15:18
0
ответов

GPGPU vs. Multicore?

Каковы основные практические аспекты различия между GPGPU и обычным многоядерным / многопоточным программированием ЦП, с точки зрения программиста? В частности: Какие типы задач лучше подходят для ...
вопрос задан: 14 May 2011 16:08
0
ответов

Гистограмма изображения OpenCL

Я пытаюсь написать ядро ​​гистограммы в OpenCL для вычисления 256-биновых гистограмм R, G и B входного изображения RGBA32F. Мое ядро ​​выглядит так: const sampler_t mSampler = ...
вопрос задан: 3 May 2011 01:36
0
ответов

Эффективность размера блока и сетки CUDA

Каков рекомендуемый способ работы с наборами данных с динамическим размером в cuda? Это случай «установки размеров блока и сетки на основе набора задач» или стоит назначать размеры блока как ...
вопрос задан: 27 April 2011 20:54
0
ответов

Сколько потоков (или рабочего элемента) может выполняться одновременно?

Я новичок в программировании GPGPU и работаю с реализацией OpenCL NVIDIA. Мой вопрос заключался в том, как вычислить предел устройства графического процессора (в количестве потоков). Насколько я понял…
вопрос задан: 15 April 2011 16:31
0
ответов

Хорошие книги и ресурсы по параллельному программированию данных и алгоритмам [закрыто]

Я читал следующие и большинство руководств NVIDIA и другой контент. Я также был в GTC в прошлом году для написания статей и переговоров. Пример CUDA: Введение в программирование на GPU общего назначения ...
вопрос задан: 30 March 2011 04:03
0
ответов

Почему страницы ASP.NET отображаются в IE быстрее, чем в Chrome или FF?

Почему время отображения страниц ASP.NET в Chrome и FF примерно в 3 раза превышает время отображения в IE ?? Эта проблема сохраняется только на моем локальном компьютере, но при публикации на реальном сервере происходит полная противоположность (...
вопрос задан: 7 March 2011 14:22
0
ответов

Какие настоящие языковые конструкции C ++ поддерживаются кодом устройства CUDA?

Приложение D версии 3.2 документации CUDA относится к поддержке C ++ в коде устройства CUDA. Ясно упомянуто, что CUDA поддерживает «Классы для устройств с вычислительной способностью 2.x». Однако ...
вопрос задан: 5 February 2011 08:54