4
ответа

Определить поддержку процессора SSE2?

Я должен сделать, определяют поддержку процессора предшествующей установки SSE2 программного обеспечения. Из того, что я понимаю, я придумал это: bool TestSSE2 (символ * szErrorMsg) {__ попытка {__ asm {...
вопрос задан: 19 August 2015 04:48
4
ответа

Почему мой модуль ядра отлично выполняет float-разделение? [Дубликат]

Я пытаюсь использовать float и двойные типы данных внутри модуля ядра. В рамках удовлетворения моего любопытства я написал простой LKM. Вот он, #include & lt; linux / module.h & gt; #include & lt; linux / ...
вопрос задан: 8 April 2013 18:51
2
ответа

Каково различие между логическим SSE intrinsics?

Есть ли какое-либо различие между логическим SSE intrinsics для различных типов? Например, если мы берем ИЛИ операция, существует три intrinsics: _mm_or_ps, _mm_or_pd и _mm_or_si128, все из которых делают...
вопрос задан: 11 June 2015 21:27
2
ответа

numpy, звонящий sse2 через ctypes

Короче говоря, я пытаюсь звонить в общую библиотеку из Python, более конкретно, от numpy. Общая библиотека реализована в C, использующем sse2 инструкции. Включение оптимизации, т.е. создание...
вопрос задан: 16 June 2010 11:00
1
ответ

Расширенная (80-разрядная) двойная плавающая точка в x87, не SSE2 - мы не пропускаем его?

Я читал сегодня об исследователях, обнаруживающих, что библиотеки Phys-X Nvidia используют x87 FP по сравнению с SSE2. Очевидно, это будет субоптимальным для параллельных наборов данных, где скорость превосходит точность. Однако...
вопрос задан: 8 July 2010 16:57
1
ответ

Опция SSE2 в Visual C ++ (x64)

Я добавил конфигурацию x64 в свой проект C ++ для компиляции 64-битной версии моего приложения. Все выглядит нормально, но компилятор выдает следующее предупреждение: `cl: Предупреждение командной строки D9002: игнорирование ...
вопрос задан: 1 September 2009 12:06
0
ответов

Можно ли использовать SSE и SSE2 для создания целого числа с разрядностью 128 бит?

Я хочу немного больше понять возможности SSE2 и хотел бы знать, можно ли создать целое число шириной 128 бит, которое поддерживает сложение, вычитание, XOR и умножение?
вопрос задан: 9 January 2019 03:45
0
ответов

Набор инструкций SSE не включен

У меня проблема с этой ошибкой: «Набор инструкций SSE не включен». Как я могу это выяснить? У меня ACER i7, Ubuntu 11.10, пожалуйста, кто-нибудь может мне помочь? Любая помощь будет принята с благодарностью! Также .. .
вопрос задан: 27 October 2016 00:50
0
ответов

Сокращение суммы байтов без знака без переполнения с использованием SSE2 на Intel

Я пытаюсь найти сокращение суммы 32 элемента (каждый 1 байт данных) на процессоре Intel i3. Я сделал так: с=0; для (я=0; я<32; я++) { s = s + а[i]; } Однако это занимает больше времени, так как...
вопрос задан: 11 June 2016 01:06
0
ответов

Оптимизация кода SSE2

Я использую встроенные функции SSE2 для оптимизации узких мест моего приложения и задаю следующий вопрос : ddata = _mm_xor_si128 (_mm_xor_si128 (_mm_sll_epi32 (xdata, 0x7u), _mm_srl_epi32 (tdata, ...
вопрос задан: 19 May 2016 05:54
0
ответов

Код SIMD работает медленнее, чем скалярный код

elma и elmc оба беззнаковые long массивы. Таковы res1 и res2. беззнаковый длинный simdstore [2]; __m128i * p, simda, simdb, simdc; p = (__m128i *) simdstore; for (i = 0; i <_polylen; i ++) ...
вопрос задан: 9 March 2013 18:16
0
ответов

Valgrind и Java

Я хочу использовать Valgrind 3.7.0 для найти утечки памяти в моем собственном коде Java. Я использую jdk1.6.0._29. Для этого мне нужно установить флаг --trace-children = yes. Установив этот флаг, я больше не могу работать ...
вопрос задан: 10 August 2012 18:09
0
ответов

странная ошибка во время приведения к __m128i

Я пытаюсь преобразовать беззнаковый короткий массив в __m128i :const unsigned short x[] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15}; const unsigned short y[] = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11,...
вопрос задан: 20 July 2012 01:24
0
ответов

Моделирование функциональности packusdw с помощью SSE2

Я реализую функцию быстрого преобразования x888 -> 565 пикселей в pixman по алгоритму, описанному Intel [ пдф]. Их код преобразует x888 -> 555, а я хочу преобразовать в 565. ...
вопрос задан: 14 June 2012 07:47
0
ответов

Инструкции SSE для добавления всех элементов массива [дубликат]

Я новичок в инструкциях SSE2. Я нашел инструкцию _mm_add_epi8, которая может добавить два элемента массива. Но мне нужна инструкция SSE, которая может добавлять все элементы массива. Я пытался разработать...
вопрос задан: 7 June 2012 11:38
0
ответов

Проверка целочисленного переполнения SSE2

При использовании инструкций SSE2, таких как PADDD (т. е. встроенная функция _mm_add_epi32), есть ли способ проверить была ли какая-либо из операций переполнена? Я подумал, что это может быть флаг в элементе управления MXCSR...
вопрос задан: 9 May 2012 06:46
0
ответов

SSE-умножение 4 32 -битных целых чисел

Как умножить четыре 32 -битных целых числа на другие 4 целых числа? Я не нашел ни одной инструкции, которая может это сделать.
вопрос задан: 8 May 2012 15:00
0
ответов

Что делает следующая инструкция по сборке: addd -8(%rbp), %xmm0?

Я пытаюсь выяснить, что на самом деле делает инструкция по сборке. Кроме того, я знаю, что %xmm0 - это...
вопрос задан: 1 May 2012 15:40
0
ответов

Добавление массива SIMD для произвольной длины массива.

Я учусь использовать возможности SIMD, пере-написав свою личную библиотеку обработки изображений с использованием встроенных векторов. Одной из основных функций является простой «массив +=», т.е. void arrayAdd(unsigned char*A,...
вопрос задан: 16 April 2012 01:24
0
ответов

SIMD: Почему SSE RGB преобразование цвета в YUV примерно с той же скоростью, что и реализация в C ++?

Я только что попытался оптимизировать преобразователь RGB в YUV420. Использование таблицы поиска привело к увеличению скорости, как и использование арифметики с фиксированной запятой. Однако я ожидал реальных выгод от использования SSE ...
вопрос задан: 16 February 2011 15:25
0
ответов

Как проверить, поддерживает ли Linux SSE2

На самом деле у меня есть 2 вопроса: является ли совместимость SSE2 проблемой процессора или компилятора? Как проверить, поддерживает ли ваш процессор или компилятор SSE2? Я использую версию GCC: gcc (GCC) 4.5.1 Когда я пытался скомпилировать ...
вопрос задан: 17 November 2010 11:16
0
ответов

Как оптимизировать цикл?

У меня есть следующая функция узкого места: typedef unsigned char byte; void CompareArrays (const byte * p1Start, const byte * p1End, const byte * p2, byte * p3) {const byte b1 = 128-30; ...
вопрос задан: 21 October 2010 12:05
0
ответов

Как сохранить значения в ячейках памяти, состоящих из нескольких несмежных участков, с SSE Intrinsics?

Я очень плохо знаком с SSE и оптимизировал раздел кода с помощью intrinsics. Я доволен самой операцией, но я ищу лучший способ записать результат. Результаты заканчиваются в три...
вопрос задан: 19 October 2010 15:10