Я работаю над переводом приложения CUDA ( это, если вы должны знать ) в OpenCL. Исходное приложение использует CUDA API в стиле C с одним потоком, чтобы избежать автоматического ожидания при чтении результатов.
Теперь я заметил, что очереди команд OpenCL очень похожи на потоки CUDA. Но в команде чтения устройства , а также в командах записи и выполнения ядра я также заметил параметры для событий. Поэтому мне интересно, что нужно для выполнения записи устройства, количества ядер (например, один вызов одного ядра, затем 100 вызовов другого ядра) и чтения устройства, все последовательно?
Спасибо!