Я хочу измерить время внутри ядра графического процессора, как его измерить в NVIDIA CUDA? например
__global__ void kernelSample() { some code here get start time some code here get stop time some code here }