0
ответов

Как выравниваются данные вектора?

Если я хочу обрабатывать данные в std :: vector с помощью SSE, мне нужно выравнивание по 16 байтам. Как я могу этого добиться? Нужно ли мне писать собственный распределитель? Или распределитель по умолчанию уже выровнен по 16 байтам ...
вопрос задан: 10 December 2011 11:38
0
ответов

Сохранение отдельных двойников из упакованного двойного вектора с использованием Intel AVX

Я пишу код, используя встроенные функции C для инструкций Intel AVX. Если у меня есть упакованный двойной вектор (a __m256d), то каков будет наиболее эффективный способ (т.е. наименьшее количество операций) для хранения ...
вопрос задан: 9 December 2011 04:07
0
ответов

Как выполнить операцию с матрицей 8 x 8 с помощью SSE?

Моя первая попытка выглядела так (предположительно, мы хотим умножить) __m128 mat [n]; / * строки * / __m128 vec [n] = {1,1,1,1}; float outvector [n]; for (int row = 0; row
вопрос задан: 27 November 2011 15:39
0
ответов

Вызов кода SSE в управляемом коде (выравнивание)

Вот моя проблема: у нас есть математическая библиотека, написанная на C ++, которая в значительной степени использует SSE. Нам нужно использовать ту же математическую библиотеку на управляемом уровне наших инструментов (которые написаны на C #). Проблема
вопрос задан: 19 November 2011 00:09
0
ответов

переупорядочивание 3D векторных триплетов в основном порядке колонок происходит медленно

У меня есть множество (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) векторных триплетов одинарной точности, и я хочу переупорядочить их, так что (x1,y1,z1),(x2,y2,z2),(x3,y3,z3) становится (x1,x2,x3,0,y1,y2,y3,0,z1,z2,z3,0) ...
вопрос задан: 7 November 2011 20:40
0
ответов

Отображенная память и SSE

Я нашел этот абзац в руководстве разработчика Intel: Из главы «ПРОГРАММИРОВАНИЕ С SSE3, SSSE3, SSE4 И AESNI» Потоковая загрузка не должна использоваться для обращения к адресам памяти, которые ...
вопрос задан: 4 November 2011 23:58
0
ответов

Является ли переменная __m128i нулем?

Как проверить, имеет ли переменная __m128i ненулевое значение на процессорах SSE-2 и более ранних версий?
вопрос задан: 3 November 2011 03:18
0
ответов

Быстрое векторизованное преобразование из RGB в BGRA

В ответ на некоторые предыдущие вопросы о преобразовании RGB в RGBA и ARGB в BGR , Я хотел бы ускорить преобразование RGB в BGRA с помощью SSE. Предположим, 32-битная машина, и вы хотели бы использовать ...
вопрос задан: 27 September 2011 09:39
0
ответов

Инструкция по инструкции Micro-оптимизации SSE

Я заметил, что иногда MSVC 2010 не перенаправляет SSE Инструкция вообще. Я думал, что мне не нужно было заботиться о порядке инструкций внутри моей петли, так как компилятор обрабатывает, что лучше всего, что ...
вопрос задан: 27 September 2011 09:38
0
ответов

Как лучше всего загрузить 2 невыровненных 64-битных значения в регистр sse с SSSE3?

Есть 2 указателя на 2 невыровненных 8-байтовых фрагмента, которые должны быть загружены в регистр xmm. Если возможно, с использованием встроенных функций. И, если возможно, без использования вспомогательного регистра. Без pinsrd. (SSSE Core 2 )
вопрос задан: 27 August 2011 23:16
0
ответов

Векторизация (SIMD) операции с деревом

Каковы некоторые общие советы / указатели по операциям векторизации дерева? С точки зрения компоновки памяти, алгоритмов и т. Д. Некоторые вещи, специфичные для предметной области: у каждого родительского узла будет довольно много (20 - 200) дочерних уз
вопрос задан: 26 August 2011 23:44
0
ответов

NEON vs Intel SSE - эквивалентность определенных операций

У меня возникли некоторые проблемы с выяснением эквивалентности NEON пары операций Intel SSE. Кажется, что NEON не может обрабатывать сразу весь регистр Q (тип данных со 128-битным значением). Я ...
вопрос задан: 26 August 2011 10:15
0
ответов

Невозможно использовать SSSE3 на включенном процессоре

У меня есть процессор Xeon W3550, который должен поддерживать набор инструкций SSE4.2, но когда я попробуйте использовать что-нибудь за SSE2 в моей программе c, я получаю ошибку компилятора, например #error "SSE4.2 ...
вопрос задан: 24 August 2011 05:41
0
ответов

Справочник по встроенным функциям SSE [closed]

Кто-нибудь знает ссылку, в которой перечислены операции встроенных функций SSE для gcc, то есть функции в файлах заголовков <* mmintrin.h> ? Спасибо.
вопрос задан: 22 August 2011 19:07
0
ответов

הדרך המהירה ביותר לעשות סכום וקטורי צף אופקי ב- x86

יש לך וקטור של שלושה (או ארבעה) צפים. מהי הדרך המהירה ביותר לסכם אותם? האם SSE (movaps, shuffle, add, movd) תמיד מהיר יותר מ- x87? האם ההוראות להוסיף לרוחב ב- SSE4.2 שוות את זה? ...
вопрос задан: 9 August 2011 13:16
0
ответов

SSE-векторизация математической функции 'pow' gcc

Я пытался векторизовать цикл, содержащий использование функции 'pow' в математической библиотеке. Я знаю, что компилятор Intel поддерживает использование 'pow' для инструкций sse, но я не могу заставить его ...
вопрос задан: 3 August 2011 01:59
0
ответов

Как определить доступность sse в CMake

В CMakeLists .txt, есть ли способ определить самый высокий доступный уровень SSE и сохранить его в CMAKE_CXX_FLAGS? Другими словами, я хотел бы иметь возможность написать что-то вроде: FindSSE () # ...
вопрос задан: 1 August 2011 16:35
0
ответов

Как добиться максимальной скорости от SSE?

Какие настройки лучше всего подходят для таких вещей, как MXCSR? Какой режим округления самый быстрый? На каких процессорах? Быстрее ли включить сигнализацию NaN, чтобы я получал информацию, когда вычисление дает нан, или ...
вопрос задан: 30 July 2011 13:39
0
ответов

Ошибка сегментации с использованием OpenMp и SSE

Я только начинаю экспериментировать с добавлением OpenMP в некоторый код SSE. Моя первая тестовая программа ИНОГДА дает сбой в _mm_set_ps, но работает, когда я устанавливаю if (0). Это выглядит так просто, что я, должно быть, упускаю ...
вопрос задан: 16 July 2011 18:55
0
ответов

Ускорить умножение матриц с помощью SSE (C ++)

Мне нужно выполнить умножение матрицы на вектор 240000 раз в секунду. Матрица 5x5 всегда одна и та же, а вектор меняется на каждой итерации. Тип данных - float. Я думал о ...
вопрос задан: 7 July 2011 22:11
0
ответов

Постоянные числа с плавающей точкой с SIMD

Я пробовал свои силы в оптимизации некоторого кода, который у меня есть, используя встроенные функции sse от Microsoft. Одна из самых больших проблем при оптимизации моего кода - это LHS, возникающая всякий раз, когда я хочу использовать константу. ...
вопрос задан: 3 July 2011 21:05
0
ответов

Програмата SSE трае многу подолго на AMD отколку на Intel

Работам во оптимизација на алгоритам користејќи SSE2 инструкции. Но, наидов на овој проблем кога ја тестирав изведбата: I) Intel e6750 Правам 4 пати поголем алгоритам што не е SSE2 ...
вопрос задан: 19 June 2011 16:21
0
ответов

оператор if / else во встроенных функциях SSE

Я пытаюсь оптимизировать небольшой фрагмент кода с помощью SSE intrinsics (я полный новичок в этой теме), но я немного зациклился на использовании условных выражений. Мой исходный код: unsigned long c; ...
вопрос задан: 9 June 2011 10:25
0
ответов

эффективный способ преобразования индексов разброса в индексы сбора?

Я пытаюсь написать сжатие потока (взять массив и избавиться от пустых элементов) с внутренними функциями SIMD. Каждая итерация цикла обрабатывает 8 элементов за раз (ширина SIMD). С помощью встроенных функций SSE ...
вопрос задан: 7 June 2011 19:36
0
ответов

как можно быстрее сравнивать буферы

Мне нужно сравнить два буфера по частям на предмет равенства. Мне не нужна информация о соотношении двух буферов, просто равны ли каждые два куска или нет. Моя машина Intel поддерживает до SSE4.2 ...
вопрос задан: 26 May 2011 11:19
0
ответов

Как бы вы написали код для беззнакового сложения, который, вероятно, будет оптимизирован в одну инструкцию SSE?

Как бы вы написали код для беззнакового сложения двух массивов на C или C ++? может быть оптимизирован, скажем, GCC, в одну 128-битную инструкцию сложения SSE без знака?
вопрос задан: 24 May 2011 18:02
0
ответов

Как сравнить типы __m128?

__ m128 a; __m128 b; How to code a != b ? what to use: _mm_cmpneq_ps or _mm_cmpneq_ss ? How to process the result ? Can't find adequate docs.
вопрос задан: 18 May 2011 09:56
0
ответов

потоковая загрузка и память, отличная от USWC

Я только что прочитал эту довольно интересную статью «Копирование буферов кадров ускоренного декодирования видео». Где они объясняют, как сделать копирование из памяти USWC как можно быстрее с помощью потоковой загрузки. Мой ...
вопрос задан: 16 May 2011 11:17
0
ответов

Билинейный фильтр со встроенными функциями SSE4.1

Я пытаюсь найти достаточно быструю функцию билинейной фильтрации только для одной отфильтрованной выборки за раз, поскольку упражнение по привыканию к использованию встроенных функций - до SSE41 вполне подойдет. Пока я ...
вопрос задан: 11 May 2011 09:57
0
ответов

Как заставить gcc использовать все регистры SSE (или AVX)?

Я пытаюсь написать вычислительно-интенсивный код для целевой платформы Windows x64 с SSE или новыми инструкциями AVX, компилируемыми в GCC 4.5 .2 и 4.6.1, MinGW64 (сборка TDM GCC и некоторая пользовательская сборка). ...
вопрос задан: 11 May 2011 07:29