Передача с устройства на устройство с CUDA обходится дорого

Я написал код, чтобы попытаться поменять местами квадранты двухмерной матрицы для целей БПФ, которая хранится в плоском массиве.

    int leftover = W-dcW;

    T *temp;
    T *topHalf;
cudaMalloc((void **)&temp, dcW * sizeof(T));

    //swap every row, left and right
    for(int i = 0; i < H; i++)
    {
        cudaMemcpy(temp, &data[i*W], dcW*sizeof(T),cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W],&data[i*W+dcW], leftover*sizeof(T), cudaMemcpyDeviceToDevice);
        cudaMemcpy(&data[i*W+leftover], temp, dcW*sizeof(T), cudaMemcpyDeviceToDevice); 
    }

cudaMalloc((void **)&topHalf, dcH*W* sizeof(T));
    leftover = H-dcH;
    cudaMemcpy(topHalf, data, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(data, &data[dcH*W], leftover*W*sizeof(T), cudaMemcpyDeviceToDevice);
    cudaMemcpy(&data[leftover*W], topHalf, dcH*W*sizeof(T), cudaMemcpyDeviceToDevice);

Обратите внимание, что этот код принимает указатели устройств , и передает ли DeviceToDevice.

Почему кажется, что это работает так медленно? Можно ли это как-то оптимизировать? Я рассчитал время по сравнению с той же операцией на хосте с использованием обычного memcpy, и это было примерно в 2 раза медленнее.

Есть идеи?

5
задан Derek 19 May 2011 в 19:02
поделиться