Я новичок в парадигме CUDA. Мой вопрос заключается в определении количества потоков на блок и блоков на сетку. Есть ли здесь немного искусства и проб? Я обнаружил, что во многих примерах для этих вещей, казалось бы, выбрано произвольное число.
Я рассматриваю проблему, при которой я мог бы передать матрицы - любого размера - в метод умножения. Таким образом, каждый элемент C (как в C = A * B) будет вычисляться одним потоком. Как бы вы определяли потоки / блок, блоки / сетку в этом случае?