Глобальный CUDA (как в C) динамические массивы, выделенные памяти устройства

Question

Глобальный CUDA (как в C) динамические массивы, выделенные памяти устройства

Как будто вы пытаетесь получить доступ к объекту, который является null. Рассмотрим ниже пример:

TypeA objA;

. В это время вы только что объявили этот объект, но не инициализировали или не инициализировали. И всякий раз, когда вы пытаетесь получить доступ к каким-либо свойствам или методам в нем, он будет генерировать NullPointerException, что имеет смысл.

См. Также этот пример:

String a = null;
System.out.println(a.toString()); // NullPointerException will be thrown

7

nvidia cuda

задан Voltaire 17 September 2008 в 01:55

6 ответов

Проведите некоторое время, фокусируясь на обильной документации, предлагаемой NVIDIA.

Из руководства по программированию:

float* devPtr;
cudaMalloc((void**)&devPtr, 256 * sizeof(*devPtr));
cudaMemset(devPtr, 0, 256 * sizeof(*devPtr));

Это - простой пример того, как выделить память. Теперь, в Ваших ядрах, необходимо принять указатель на плавание как так:

__global__
void kernel1(float *some_neat_data)
{
    some_neat_data[threadIdx.x]++;
}

__global__
void kernel2(float *potentially_that_same_neat_data)
{
    potentially_that_same_neat_data[threadIdx.x] *= 0.3f;
}

Таким образом, теперь можно вызвать их как так:

float* devPtr;
cudaMalloc((void**)&devPtr, 256 * sizeof(*devPtr));
cudaMemset(devPtr, 0, 256 * sizeof(*devPtr));

kernel1<<<1,128>>>(devPtr);
kernel2<<<1,128>>>(devPtr);

Поскольку эти данные используются в многочисленных функциях, я хотел бы, чтобы они были глобальны.

Существует немного серьезных оснований использовать globals. Это определенно не то. Я оставлю его как осуществление для расширения этого примера для включения перемещения "devPtr" в глобальную область видимости.

Править:

Хорошо, фундаментальная проблема - это: Ваши ядра могут только память устройства доступа и единственные указатели глобальной области видимости, которые они могут использовать, GPU. Когда вызов ядра от Вашего ЦП, негласно что происходит, состоит в том, что указатели и примитивы копируются в регистры GPU и/или общую память, прежде чем ядро будет выполнено.

Таким образом, самое близкое, которое я могу предложить, является этим: используйте cudaMemcpyToSymbol () для достижения целей. Но в фоновом режиме полагайте, что другой подход мог бы быть Правильной Вещью.

#include <algorithm>

__constant__ float devPtr[1024];

__global__
void kernel1(float *some_neat_data)
{
    some_neat_data[threadIdx.x] = devPtr[0] * devPtr[1];
}

__global__
void kernel2(float *potentially_that_same_neat_data)
{
    potentially_that_same_neat_data[threadIdx.x] *= devPtr[2];
}


int main(int argc, char *argv[])
{
    float some_data[256];
    for (int i = 0; i < sizeof(some_data) / sizeof(some_data[0]); i++)
    {
        some_data[i] = i * 2;
    }
    cudaMemcpyToSymbol(devPtr, some_data, std::min(sizeof(some_data), sizeof(devPtr) ));
    float* otherDevPtr;
    cudaMalloc((void**)&otherDevPtr, 256 * sizeof(*otherDevPtr));
    cudaMemset(otherDevPtr, 0, 256 * sizeof(*otherDevPtr));

    kernel1<<<1,128>>>(otherDevPtr);
    kernel2<<<1,128>>>(otherDevPtr);

    return 0;
}

Не забывайте '-host-compilation=c ++' для этого примера.

1