Я должен сделать, определяют поддержку процессора предшествующей установки SSE2 программного обеспечения. Из того, что я понимаю, я придумал это: bool TestSSE2 (символ * szErrorMsg) {__ попытка {__ asm {...
Я пытаюсь использовать float и двойные типы данных внутри модуля ядра. В рамках удовлетворения моего любопытства я написал простой LKM. Вот он, #include & lt; linux / module.h & gt; #include & lt; linux / ...
Есть ли какое-либо различие между логическим SSE intrinsics для различных типов? Например, если мы берем ИЛИ операция, существует три intrinsics: _mm_or_ps, _mm_or_pd и _mm_or_si128, все из которых делают...
Короче говоря, я пытаюсь звонить в общую библиотеку из Python, более конкретно, от numpy. Общая библиотека реализована в C, использующем sse2 инструкции. Включение оптимизации, т.е. создание...
Я читал сегодня об исследователях, обнаруживающих, что библиотеки Phys-X Nvidia используют x87 FP по сравнению с SSE2. Очевидно, это будет субоптимальным для параллельных наборов данных, где скорость превосходит точность. Однако...
Я добавил конфигурацию x64 в свой проект C ++ для компиляции 64-битной версии моего приложения. Все выглядит нормально, но компилятор выдает следующее предупреждение: `cl: Предупреждение командной строки D9002: игнорирование ...
Я хочу немного больше понять возможности SSE2 и хотел бы знать, можно ли создать целое число шириной 128 бит, которое поддерживает сложение, вычитание, XOR и умножение?
У меня проблема с этой ошибкой: «Набор инструкций SSE не включен». Как я могу это выяснить? У меня ACER i7, Ubuntu 11.10, пожалуйста, кто-нибудь может мне помочь? Любая помощь будет принята с благодарностью! Также .. .
Я пытаюсь найти сокращение суммы 32 элемента (каждый 1 байт данных) на процессоре Intel i3. Я сделал так: с=0; для (я=0; я<32; я++)
{ s = s + а[i];
} Однако это занимает больше времени, так как...
Я использую встроенные функции SSE2 для оптимизации узких мест моего приложения и задаю следующий вопрос : ddata = _mm_xor_si128 (_mm_xor_si128 (_mm_sll_epi32 (xdata, 0x7u), _mm_srl_epi32 (tdata, ...
elma и elmc оба беззнаковые long массивы. Таковы res1 и res2. беззнаковый длинный simdstore [2]; __m128i * p, simda, simdb, simdc; p = (__m128i *) simdstore; for (i = 0; i <_polylen; i ++) ...
Я хочу использовать Valgrind 3.7.0 для найти утечки памяти в моем собственном коде Java. Я использую jdk1.6.0._29. Для этого мне нужно установить флаг --trace-children = yes. Установив этот флаг, я больше не могу работать ...
Я реализую функцию быстрого преобразования x888 -> 565 пикселей в pixman по алгоритму, описанному Intel [ пдф]. Их код преобразует x888 -> 555, а я хочу преобразовать в 565. ...
Я новичок в инструкциях SSE2. Я нашел инструкцию _mm_add_epi8, которая может добавить два элемента массива. Но мне нужна инструкция SSE, которая может добавлять все элементы массива. Я пытался разработать...
При использовании инструкций SSE2, таких как PADDD (т. е. встроенная функция _mm_add_epi32), есть ли способ проверить была ли какая-либо из операций переполнена? Я подумал, что это может быть флаг в элементе управления MXCSR...
Я учусь использовать возможности SIMD, пере-написав свою личную библиотеку обработки изображений с использованием встроенных векторов. Одной из основных функций является простой «массив +=», т.е. void arrayAdd(unsigned char*A,...
Я только что попытался оптимизировать преобразователь RGB в YUV420. Использование таблицы поиска привело к увеличению скорости, как и использование арифметики с фиксированной запятой. Однако я ожидал реальных выгод от использования SSE ...
На самом деле у меня есть 2 вопроса: является ли совместимость SSE2 проблемой процессора или компилятора?
Как проверить, поддерживает ли ваш процессор или компилятор SSE2? Я использую версию GCC: gcc (GCC) 4.5.1 Когда я пытался скомпилировать ...
Я очень плохо знаком с SSE и оптимизировал раздел кода с помощью intrinsics. Я доволен самой операцией, но я ищу лучший способ записать результат. Результаты заканчиваются в три...