0
ответов

Получаю ли я снижение производительности при смешивании инструкций SSE integer / float SIMD

Я использовал инструкции SIMD x86 (SSE1234) в вид встроенных элементов довольно много в последнее время. Что меня расстраивает, так это то, что SSE ISA имеет несколько простых инструкций, доступных только для чисел с плавающей запятой ...
вопрос задан: 16 February 2011 21:16
0
ответов

В чем разница между SPMD и SIMD?

Я просто не могу понять, в чем разница между ними ... SPMD находится в уровень программирования и SIMD на аппаратном уровне? пример был бы хорош! спасибо
вопрос задан: 16 February 2011 08:49
0
ответов

улучшить локальность и уменьшить загрязнение кеша в реализация реконструкции медицинских изображений

Я провожу исследование для своего университета, связанное с алгоритмом реконструкции изображений для использования в медицине. Я застрял в чем-то на срок до 3 недель, мне нужно улучшить производительность следующего кода: ...
вопрос задан: 18 January 2011 21:50
0
ответов

приблизительно log10 [x ^ k0 + k1]

Приветствую. Я' m пытается аппроксимировать функцию Log10 [x ^ k0 + k1], где .21
вопрос задан: 16 January 2011 08:10
0
ответов

Поддержка SSE (расширений SIMD) в gcc

Я вижу код, показанный ниже: #include "stdio.h" #define VECTOR_SIZE 4 typedef float v4sf __attribute__ ((vector_size (sizeof (float) * VECTOR_SIZE))); // вектор из четырех одинарных чисел с плавающей запятой typedef union ...
вопрос задан: 5 January 2011 10:15
0
ответов

SSE2: Функция журнала с двойной точностью

Мне нужна реализация функции журнала с открытым исходным кодом (без ограничений по лицензии), что-то с подписью __m128d _mm_log_pd (__ m128d); Он доступен в Intel Short Vector Math Library (часть ICC), ...
вопрос задан: 27 December 2010 11:53
0
ответов

индексация в массив с помощью SSE

Предположим, у меня есть массив: uint8_t arr [256]; и элемент __m128i x, содержащий 16 байтов, x_1, x_2, ... x_16 Я хотел бы эффективно заполнить новый элемент __m128i __m128i y значениями из ...
вопрос задан: 19 December 2010 16:23
0
ответов

Какой наиболее эффективный способ загрузки и извлечения 32-битных целочисленных значений из 128-битного вектора SSE?

Я пытаюсь оптимизировать свой код, используя встроенные функции SSE, но столкнулся с проблемой, когда не знаю, как хорошо извлечь целочисленные значения из вектора после того, как я выполнил встроенные функции SSE ...
вопрос задан: 5 December 2010 22:22
0
ответов

Наиболее эффективный способ хранения 4 точечных произведений в непрерывном массиве на C с использованием встроенных функций SSE

Я оптимизирую некоторый код для микроархитектуры Intel x86 Nehalem с использованием встроенных функций SSE. Часть моей программы вычисляет 4 точечных произведения и добавляет каждый результат к предыдущим значениям в непрерывном ...
вопрос задан: 14 November 2010 07:35
0
ответов

c++ how to write code the compiler can easily optimize for SIMD?

i'm working in Visual Studio 2008 and in the project settings I see the option for "activate Extended Instruction set" which I can set to None, SSE or SSE2 So the compiler will try to batch ...
вопрос задан: 26 October 2010 20:27
0
ответов

SIMD (SSE) инструкция для деления в GCC

Я бы хотел оптимизировать следующий фрагмент, используя инструкции SSE, если это возможно: / * * структура данных * / typedef struct v3d v3d; struct v3d {двойной х; двойной y; двойной z; } tmp = {1 ....
вопрос задан: 29 September 2010 22:39
0
ответов

Какой предел оптимизации с использованием SIMD?

Мне нужно оптимизировать некоторый C-код, который выполняет много физических вычислений, используя SIMD-расширения в SPE Cell Processor. Каждый векторный оператор может обрабатывать 4 числа с плавающей точкой одновременно. В идеале ...
вопрос задан: 5 September 2010 17:35
0
ответов

3x3 Матричное обратное возможное использование инструкции SIMD?

Я использую ARM основанный на коре-A8 процессор, и у меня есть несколько мест, где я вычисляю 3x3 Матричные обратные операции. Поскольку процессор Коры-a8 имеет процессор NEON SIMD, мне интересно...
вопрос задан: 26 July 2010 10:58
0
ответов

SIMD или не SIMD - кросс-платформенный

Мне нужна некоторая идея, как написать C ++ кросс-платформенное внедрение нескольких parallelizable проблем способом, таким образом, я могу использовать в своих интересах SIMD (SSE, SPU, и т.д.) при наличии. А также я хочу быть в состоянии...
вопрос задан: 23 January 2010 08:11