Я делаю некоторые вычисления и делаю некоторый анализ сильных и слабых сторон различных реализаций BLAS. однако я столкнулся с проблемой.
Я тестирую cuBlas, выполнение linAlg на GPU показалось бы хорошей идеей, но есть одна проблема.
Реализация cuBlas с использованием основного формата столбцов, и, поскольку это не то, что мне нужно в конечном итоге, мне любопытно, есть ли способ заставить BLAS выполнять транспонирование матрицы?