Я гуглил и смог найти только тривиальный примернового динамического параллелизма в Compute Capability 3.0 в одном из их технических обзоров по ссылке отсюда.Я знаю, что карты для HPC , вероятно, не будут доступныдо этого времени в следующем году (после того, как национальные лаборатории получат свои). И да, я понимаю, что простого примера, который они привели, достаточно, чтобы завести вас, но чем больше, тем веселее.
Есть ли другие примеры, которые я пропустил?
Чтобы избавить вас от хлопот, вот весь пример, приведенный в техническом описании:
__global__ ChildKernel(void* data){
//Operate on data
}
__global__ ParentKernel(void *data){
ChildKernel<<<16, 1>>>(data);
}
// In Host Code
ParentKernel<<<256, 64>>(data);
// Recursion is also supported
__global__ RecursiveKernel(void* data){
if(continueRecursion == true)
RecursiveKernel<<<64, 16>>>(data);
}
РЕДАКТИРОВАТЬ: Доклад GTC Новые возможности модели программирования CUDAбыл посвящен в основном новому динамическому параллелизму в CUDA 5. По ссылке есть видео и слайды. Все еще только игрушечные примеры, но гораздо более подробные, чем техническое задание выше.