sse - список вопросов по программированию sse

ответов

Как выравниваются данные вектора?

Если я хочу обрабатывать данные в std :: vector с помощью SSE, мне нужно выравнивание по 16 байтам. Как я могу этого добиться? Нужно ли мне писать собственный распределитель? Или распределитель по умолчанию уже выровнен по 16 байтам ...

вопрос задан: 10 December 2011 11:38

ответов

Сохранение отдельных двойников из упакованного двойного вектора с использованием Intel AVX

Я пишу код, используя встроенные функции C для инструкций Intel AVX. Если у меня есть упакованный двойной вектор (a __m256d), то каков будет наиболее эффективный способ (т.е. наименьшее количество операций) для хранения ...

x86 x86-64 sse avx

вопрос задан: 9 December 2011 04:07

ответов

Как выполнить операцию с матрицей 8 x 8 с помощью SSE?

Моя первая попытка выглядела так (предположительно, мы хотим умножить) __m128 mat [n]; / * строки * / __m128 vec [n] = {1,1,1,1}; float outvector [n]; for (int row = 0; row

c++ sse intrinsics

вопрос задан: 27 November 2011 15:39

ответов

Вызов кода SSE в управляемом коде (выравнивание)

Вот моя проблема: у нас есть математическая библиотека, написанная на C ++, которая в значительной степени использует SSE. Нам нужно использовать ту же математическую библиотеку на управляемом уровне наших инструментов (которые написаны на C #). Проблема

c# c++ alignment managed sse

вопрос задан: 19 November 2011 00:09

ответов

переупорядочивание 3D векторных триплетов в основном порядке колонок происходит медленно

У меня есть множество (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) векторных триплетов одинарной точности, и я хочу переупорядочить их, так что (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) становится (x1,x2,x3,0,y1,y2,y3,0,z1,z2,z3,0) ...

c++ c sse simd

вопрос задан: 7 November 2011 20:40

ответов

Отображенная память и SSE

Я нашел этот абзац в руководстве разработчика Intel: Из главы «ПРОГРАММИРОВАНИЕ С SSE3, SSSE3, SSE4 И AESNI» Потоковая загрузка не должна использоваться для обращения к адресам памяти, которые ...

assembly intel sse memory-mapping

вопрос задан: 4 November 2011 23:58

ответов

Является ли переменная __m128i нулем?

Как проверить, имеет ли переменная __m128i ненулевое значение на процессорах SSE-2 и более ранних версий?

c++ c intel sse simd

вопрос задан: 3 November 2011 03:18

ответов

Быстрое векторизованное преобразование из RGB в BGRA

В ответ на некоторые предыдущие вопросы о преобразовании RGB в RGBA и ARGB в BGR , Я хотел бы ускорить преобразование RGB в BGRA с помощью SSE. Предположим, 32-битная машина, и вы хотели бы использовать ...

c opengl sse simd vectorization

вопрос задан: 27 September 2011 09:39

ответов

Инструкция по инструкции Micro-оптимизации SSE

Я заметил, что иногда MSVC 2010 не перенаправляет SSE Инструкция вообще. Я думал, что мне не нужно было заботиться о порядке инструкций внутри моей петли, так как компилятор обрабатывает, что лучше всего, что ...

c++ optimization sse simd micro-optimization

вопрос задан: 27 September 2011 09:38

ответов

Как лучше всего загрузить 2 невыровненных 64-битных значения в регистр sse с SSSE3?

Есть 2 указателя на 2 невыровненных 8-байтовых фрагмента, которые должны быть загружены в регистр xmm. Если возможно, с использованием встроенных функций. И, если возможно, без использования вспомогательного регистра. Без pinsrd. (SSSE Core 2 )

sse simd intrinsics

вопрос задан: 27 August 2011 23:16

ответов

Векторизация (SIMD) операции с деревом

Каковы некоторые общие советы / указатели по операциям векторизации дерева? С точки зрения компоновки памяти, алгоритмов и т. Д. Некоторые вещи, специфичные для предметной области: у каждого родительского узла будет довольно много (20 - 200) дочерних уз

c++ sse simd vectorization

вопрос задан: 26 August 2011 23:44

ответов

NEON vs Intel SSE - эквивалентность определенных операций

У меня возникли некоторые проблемы с выяснением эквивалентности NEON пары операций Intel SSE. Кажется, что NEON не может обрабатывать сразу весь регистр Q (тип данных со 128-битным значением). Я ...

c++ c sse simd neon

вопрос задан: 26 August 2011 10:15

ответов

Невозможно использовать SSSE3 на включенном процессоре

У меня есть процессор Xeon W3550, который должен поддерживать набор инструкций SSE4.2, но когда я попробуйте использовать что-нибудь за SSE2 в моей программе c, я получаю ошибку компилятора, например #error "SSE4.2 ...

c linux ubuntu intel sse

вопрос задан: 24 August 2011 05:41

ответов

Справочник по встроенным функциям SSE [closed]

Кто-нибудь знает ссылку, в которой перечислены операции встроенных функций SSE для gcc, то есть функции в файлах заголовков <* mmintrin.h> ? Спасибо.

c++ c gcc sse simd

вопрос задан: 22 August 2011 19:07

ответов

הדרך המהירה ביותר לעשות סכום וקטורי צף אופקי ב- x86

יש לך וקטור של שלושה (או ארבעה) צפים. מהי הדרך המהירה ביותר לסכם אותם? האם SSE (movaps, shuffle, add, movd) תמיד מהיר יותר מ- x87? האם ההוראות להוסיף לרוחב ב- SSE4.2 שוות את זה? ...

optimization assembly floating-point x86 sse

вопрос задан: 9 August 2011 13:16

ответов

SSE-векторизация математической функции 'pow' gcc

Я пытался векторизовать цикл, содержащий использование функции 'pow' в математической библиотеке. Я знаю, что компилятор Intel поддерживает использование 'pow' для инструкций sse, но я не могу заставить его ...

c optimization loops sse vectorization

вопрос задан: 3 August 2011 01:59

ответов

Как определить доступность sse в CMake

В CMakeLists .txt, есть ли способ определить самый высокий доступный уровень SSE и сохранить его в CMAKE_CXX_FLAGS? Другими словами, я хотел бы иметь возможность написать что-то вроде: FindSSE () # ...

build cross-platform cmake sse

вопрос задан: 1 August 2011 16:35

ответов

Как добиться максимальной скорости от SSE?

Какие настройки лучше всего подходят для таких вещей, как MXCSR? Какой режим округления самый быстрый? На каких процессорах? Быстрее ли включить сигнализацию NaN, чтобы я получал информацию, когда вычисление дает нан, или ...

optimization assembly x86 sse x87

вопрос задан: 30 July 2011 13:39

ответов

Ошибка сегментации с использованием OpenMp и SSE

Я только начинаю экспериментировать с добавлением OpenMP в некоторый код SSE. Моя первая тестовая программа ИНОГДА дает сбой в _mm_set_ps, но работает, когда я устанавливаю if (0). Это выглядит так просто, что я, должно быть, упускаю ...

c gcc openmp sse

вопрос задан: 16 July 2011 18:55

ответов

Ускорить умножение матриц с помощью SSE (C ++)

Мне нужно выполнить умножение матрицы на вектор 240000 раз в секунду. Матрица 5x5 всегда одна и та же, а вектор меняется на каждой итерации. Тип данных - float. Я думал о ...

c++ sse matrix-multiplication

вопрос задан: 7 July 2011 22:11

ответов

Постоянные числа с плавающей точкой с SIMD

Я пробовал свои силы в оптимизации некоторого кода, который у меня есть, используя встроенные функции sse от Microsoft. Одна из самых больших проблем при оптимизации моего кода - это LHS, возникающая всякий раз, когда я хочу использовать константу. ...

c++ optimization sse simd

вопрос задан: 3 July 2011 21:05

ответов

Програмата SSE трае многу подолго на AMD отколку на Intel

Работам во оптимизација на алгоритам користејќи SSE2 инструкции. Но, наидов на овој проблем кога ја тестирав изведбата: I) Intel e6750 Правам 4 пати поголем алгоритам што не е SSE2 ...

optimization sse

вопрос задан: 19 June 2011 16:21

ответов

оператор if / else во встроенных функциях SSE

Я пытаюсь оптимизировать небольшой фрагмент кода с помощью SSE intrinsics (я полный новичок в этой теме), но я немного зациклился на использовании условных выражений. Мой исходный код: unsigned long c; ...

c++ if-statement sse intrinsics mmx

вопрос задан: 9 June 2011 10:25

ответов

эффективный способ преобразования индексов разброса в индексы сбора?

Я пытаюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними функциями SIMD. Каждая итерация цикла обрабатывает 8 элементов за раз (ширина SIMD). С помощью встроенных функций SSE ...

sse simd vectorization altivec stream-compaction

вопрос задан: 7 June 2011 19:36

ответов

как можно быстрее сравнивать буферы

Мне нужно сравнить два буфера по частям на предмет равенства. Мне не нужна информация о соотношении двух буферов, просто равны ли каждые два куска или нет. Моя машина Intel поддерживает до SSE4.2 ...

c windows sse

вопрос задан: 26 May 2011 11:19

ответов

Как бы вы написали код для беззнакового сложения, который, вероятно, будет оптимизирован в одну инструкцию SSE?

Как бы вы написали код для беззнакового сложения двух массивов на C или C ++? может быть оптимизирован, скажем, GCC, в одну 128-битную инструкцию сложения SSE без знака?

c++ c sse

вопрос задан: 24 May 2011 18:02

ответов

Как сравнить типы __m128?

__ m128 a; __m128 b; How to code a != b ? what to use: _mm_cmpneq_ps or _mm_cmpneq_ss ? How to process the result ? Can't find adequate docs.

x86 sse simd

вопрос задан: 18 May 2011 09:56

ответов

потоковая загрузка и память, отличная от USWC

Я только что прочитал эту довольно интересную статью «Копирование буферов кадров ускоренного декодирования видео». Где они объясняют, как сделать копирование из памяти USWC как можно быстрее с помощью потоковой загрузки. Мой ...

c++ sse memcpy cpu-architecture

вопрос задан: 16 May 2011 11:17

ответов

Билинейный фильтр со встроенными функциями SSE4.1

Я пытаюсь найти достаточно быструю функцию билинейной фильтрации только для одной отфильтрованной выборки за раз, поскольку упражнение по привыканию к использованию встроенных функций - до SSE41 вполне подойдет. Пока я ...

c optimization filtering sse intrinsics

вопрос задан: 11 May 2011 09:57

ответов

Как заставить gcc использовать все регистры SSE (или AVX)?

Я пытаюсь написать вычислительно-интенсивный код для целевой платформы Windows x64 с SSE или новыми инструкциями AVX, компилируемыми в GCC 4.5 .2 и 4.6.1, MinGW64 (сборка TDM GCC и некоторая пользовательская сборка). ...

gcc 64-bit sse register-allocation avx

вопрос задан: 11 May 2011 07:29