Быстро 4x4 умножение матриц в C

Question

Быстро 4x4 умножение матриц в C

YouTube обеспечивает ActionScript API.

Используя это, Вы могли загрузить видео в Flash с помощью их API и затем иметь приложение Flash, создают аннотации на слой выше видео.

Или, альтернативно, если Вы хотите избегать создания чего-то в Flash, с помощью API JavaScript YouTube, Вы могли бы привлечь ОТДЕЛЕНИЯ HTML по плееру YouTube на Вашей веб-странице. Просто помните при встраивании плеера для имения WMODE="transparent" в списке параметрических усилителей.

Настолько использующий пример с YouTube:

И затем необходимо быть в состоянии нарисовать аннотации по фильму YouTube с помощью CSS/DHTML.

16

iphone c arm neon

задан Nils Pipenbrinck 4 November 2009 в 14:53

5 ответов

Просто придирки. Интересно, почему люди до сих пор добровольно запутывают свой код? C уже трудно читать, добавлять к нему не нужно.

static inline void Matrix4x4MultiplyBy4x4 (float src1[4][4], float src2[4][4], float dest[4][4])
{
dest[0][0] = src1[0][0] * src2[0][0] + src1[0][1] * src2[1][0] + src1[0][2] * src2[2][0] + src1[0][3] * src2[3][0]; 
dest[0][1] = src1[0][0] * src2[0][1] + src1[0][1] * src2[1][1] + src1[0][2] * src2[2][1] + src1[0][3] * src2[3][1]; 
dest[0][2] = src1[0][0] * src2[0][2] + src1[0][1] * src2[1][2] + src1[0][2] * src2[2][2] + src1[0][3] * src2[3][2]; 
dest[0][3] = src1[0][0] * src2[0][3] + src1[0][1] * src2[1][3] + src1[0][2] * src2[2][3] + src1[0][3] * src2[3][3]; 
dest[1][0] = src1[1][0] * src2[0][0] + src1[1][1] * src2[1][0] + src1[1][2] * src2[2][0] + src1[1][3] * src2[3][0]; 
dest[1][1] = src1[1][0] * src2[0][1] + src1[1][1] * src2[1][1] + src1[1][2] * src2[2][1] + src1[1][3] * src2[3][1]; 
dest[1][2] = src1[1][0] * src2[0][2] + src1[1][1] * src2[1][2] + src1[1][2] * src2[2][2] + src1[1][3] * src2[3][2]; 
dest[1][3] = src1[1][0] * src2[0][3] + src1[1][1] * src2[1][3] + src1[1][2] * src2[2][3] + src1[1][3] * src2[3][3]; 
dest[2][0] = src1[2][0] * src2[0][0] + src1[2][1] * src2[1][0] + src1[2][2] * src2[2][0] + src1[2][3] * src2[3][0]; 
dest[2][1] = src1[2][0] * src2[0][1] + src1[2][1] * src2[1][1] + src1[2][2] * src2[2][1] + src1[2][3] * src2[3][1]; 
dest[2][2] = src1[2][0] * src2[0][2] + src1[2][1] * src2[1][2] + src1[2][2] * src2[2][2] + src1[2][3] * src2[3][2]; 
dest[2][3] = src1[2][0] * src2[0][3] + src1[2][1] * src2[1][3] + src1[2][2] * src2[2][3] + src1[2][3] * src2[3][3]; 
dest[3][0] = src1[3][0] * src2[0][0] + src1[3][1] * src2[1][0] + src1[3][2] * src2[2][0] + src1[3][3] * src2[3][0]; 
dest[3][1] = src1[3][0] * src2[0][1] + src1[3][1] * src2[1][1] + src1[3][2] * src2[2][1] + src1[3][3] * src2[3][1]; 
dest[3][2] = src1[3][0] * src2[0][2] + src1[3][1] * src2[1][2] + src1[3][2] * src2[2][2] + src1[3][3] * src2[3][2]; 
dest[3][3] = src1[3][0] * src2[0][3] + src1[3][1] * src2[1][3] + src1[3][2] * src2[2][3] + src1[3][3] * src2[3][3]; 
};

20

ответ дан 30 November 2019 в 15:16

Are you sure that your unrolled code is faster than the explicit loop based approach? Mind that the compilers are usually better than humans performing optimizations!

In fact, I'd bet there are more chances for a compiler to emit automatically SIMD instructions from a well written loop than from a series of "unrelated" statements...

You could also specify the matrices sizes in the argument declaration. Then you could use the normal bracket syntax to access the elements, and it could also be a good hint for the compiler to make its optimisations too.

3

ответ дан 30 November 2019 в 15:16

Ваш полностью развернутый традиционный продукт, скорее всего, будет довольно быстрым.

Ваша матрица слишком мала, чтобы преодолеть подслушанное управление умножением Штрассена в его традиционной форме с явными индексами и кодом разделения; вы, вероятно, потеряете какое-либо влияние на оптимизацию из-за этих накладных расходов.

Но если вы хотите побыстрее, я бы использовал инструкции SIMD, если они доступны. Я был бы удивлен, если в наши дни чипы ARM не имеют их. Если они это сделают, вы можете управлять всеми продуктами в строке / столбце в одной инструкции; если SIMD имеет ширину 8, вы можете управлять умножениями на 2 строк / столбцов в одной инструкции. Настройка операндов для выполнения этой инструкции может потребовать некоторого танца; Инструкции SIMD легко подберут ваши строки (соседние значения), но не подберут столбцы (несмежные).

2

ответ дан 30 November 2019 в 15:16

Это произвольные матрицы или у них есть какие-то симметрии? Если это так, эти симметрии часто можно использовать для повышения производительности (например, в матрицах вращения).

Кроме того, я согласен с вышеупомянутым fortran и буду запускать некоторые временные тесты, чтобы убедиться, что ваш развернутый вручную код работает быстрее, чем оптимизирующий компилятор может создать. По крайней мере, вы сможете упростить свой код.

Пол

2

ответ дан 30 November 2019 в 15:16

Другие вопросы по тегам:

iphone c arm neon

Быстро 4x4 умножение матриц в C

5 ответов

Похожие вопросы: