Я надеюсь оптимизировать этот линейный поиск: статический линейный интервал (интервал константы *прибытие, интервал n, международный ключ) {интервал i = 0; в то время как (я <n) {если (прибытие [я]> = ключ)...
Учитывая массивы: международный холст [10] [10]; международное дополнение [10] [10]; Где все значения колеблются от 0 - 100, что является самым быстрым путем в C++ для добавления тех двух массивов, таким образом, каждая ячейка в холсте равняется себе плюс
Мне нужна некоторая идея, как написать C ++ кросс-платформенное внедрение нескольких parallelizable проблем способом, таким образом, я могу использовать в своих интересах SIMD (SSE, SPU, и т.д.) при наличии. А также я хочу быть в состоянии...
Я использую 3D математику в своем приложении экстенсивно. Какого количества ускорения я могу достигнуть путем преобразования моей векторной/матричной библиотеки в SSE, AltiVec или подобного кода SIMD?
У меня есть массив логических и вы хотите отправить их через сеть. Тем не менее, я только хочу отправить один бит за логическое значение, поэтому я хочу собрать их вместе. Скажем, если я сохраняю все логические значения в виде __m128i ...
Какой intrinsics я использовал бы для векторизации следующего (если даже возможно векторизовать) на x86_64? удвойте myNum = 0; для (интервал i=0; я <n; я ++) {myNum + = [b [я]] * c [я];//b [я] = интервал, [b [я]]...
Существует, несколько мест в моей кодовой базе, где та же операция повторяется очень большое количество раз для большого набора данных. В некоторых случаях требуется большое количество времени для обработки их. Я...
Я плохо знаком с оптимизацией кода с инструкциями SSE/SSE2, и до сих пор я не стал очень далеким. К моему знанию общая оптимизированная SSE функция была бы похожа на это: освободите sse_func (плавание константы* константа...
В последних годах я делал большое программирование SIMD, и большую часть времени я полагался на встроенные функции компилятора (такие как те для программирования SSE) или на программировании...
У меня есть некоторый код, который работает довольно хорошо, но я хотел бы заставить его работать лучше. Основная проблема, которую я имею с ним, состоит в том, что это должно иметь вложенный для цикла. Внешний - для повторений (который...
У меня есть некоторый код в цикле для (интервал i = 0; я <n; я ++) {u [я] = c * u [я] + s * b [я];} Так, u и b являются векторами той же длины, и c и s являются скалярами. Этот код хороший кандидат на...
Я пытаюсь сделать плавающие точки octuple-precision на x86-64, хранящиеся в ymm векторных регистрах. Но я знаю только, как получить доступ к младшим 64 бит ymm0 (vmovq). Как я могу изменить векторные регистры смены вектора ...
Это конкретно связано с Неоном ARM кодирование SIMD. Я использую Неон ARM instrinsics для определенного модуля в видеодекодере. У меня есть векторизованные данные следующим образом: существует четыре элемента на 32 бита в...
Я ищу наиболее эффективный способ зеркального отражения знака на всех четырех плаваниях, упакованных в регистре SSE. Я не нашел внутреннее для того, чтобы сделать это в программном обеспечении архитектуры Intel dev руководство....
может любой рекомендовать портативную библиотеку SIMD, которая обеспечивает c/c ++ API, работы над Intel и расширения AMD и Visual Studio, совместимый GCC. Я надеюсь ускорять вещи как масштабирование 512x512 массив...
Я хочу узнать больше об использовании SSE. Что пути там для изучения помимо очевидного чтения Intel® 64 и Руководств Разработчика программного обеспечения Архитектуры IA-32? Главным образом мне интересно работать...
Я пишу игру в Haskell, и моя текущая передача в UI включает большое процедурное поколение геометрии. Я в настоящее время фокусируюсь на идентификации выполнения одной конкретной операции (C-выход...
Я хотел бы запустить и играть с некоторым AVX (усовершенствованное векторное расширение) инструкции. Я знаю, что Intel обеспечивает эмулятор для тестирования программного обеспечения, содержащего эти инструкции (см. этот вопрос), но так как я надеваю'...
Мой процессор поддерживает следующие технологии: MMX, SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2 и AVX. Когда я пишу свой код и проверяю аппаратную поддержку, могу ли я предположить такие вещи, как «Если процессор ...
Есть ли какое-либо различие между логическим SSE intrinsics для различных типов? Например, если мы берем ИЛИ операция, существует три intrinsics: _mm_or_ps, _mm_or_pd и _mm_or_si128, все из которых делают...
Серия v4 компилятора gcc может автоматически векторизовать циклы с использованием процессора SIMD на некоторых современных процессорах, таких как чипы AMD Athlon или Intel Pentium / Core. Как это сделать?
Я очень плохо знаком с SIMD/SSE, и я пытаюсь сделать некоторую простую фильтрацию изображения (размывание). Код ниже фильтрует каждый пиксель 8-разрядного серого битового массива с простым [1 2 1] взвешивающий в горизонтальном направлении...
Где я могу найти информацию об общих приемах SIMD? Я имею систему команд и знаю, как написать нехитрый код SIMD, но я знаю, SIMD теперь намного более мощен. Это может содержать комплекс...
Там какой-либо более быстрый метод должен сохранить два x86 регистра на 32 бита в 128 битах xmm регистр? movd xmm0, edx movd xmm1, eax pshufd xmm0, xmm0, por xmm0 за 1$, xmm1 Поэтому, если EAX является 0x12345678 и...
как использовать Умножение - Накапливают intrinsics, обеспеченный GCC? float32x4_t vmlaq_f32 (float32x4_t, float32x4_t, float32x4_t); Может любой объяснять, что три параметра я должен передать этому...
Быстрая Сводка: у Меня есть массив 24-разрядных значений. Какое-либо предложение о том, как быстро развернуть отдельные 24-разрядные элементы массива в 32-разрядные элементы?Подробнее: Я обрабатываю входящие видеокадры в...
Я работаю над автоматической векторизацией с GCC. Я не имею возможности использовать intrinsics или приписываю из-за клиентского требования. (Я не могу заставить ввод данных пользователем поддерживать векторизацию), Если выравнивание...
Регистры SSE совместно использованы или дублированы между логическими процессорами (hyper распараллеливающий)? Я могу ожидать тот же вид ускорения от распараллеливания для SSE тяжелая программа что касается нормальной программы (Intel...