У меня есть ядро CUDA, которое вызывает ряд функций устройства.
Как лучше всего получить время выполнения каждой из функций устройства?
Как лучше всего получить время выполнения участка кода в одной из функций устройства?