Neon Оптимизация с использованием встроенных функций

Question

Neon Оптимизация с использованием встроенных функций

Узнав о встроенных функциях ARM NEON, я синхронизировал функцию, которую я написал, чтобы удвоить элементы в массиве. Версия, которая использовала встроенные функции, занимает больше времени, чем простая версия функции C.

Без NEON:

    void  double_elements(unsigned int *ptr, unsigned int size)
 {
        unsigned int loop;
        for( loop= 0; loop

С NEON:

 void  double_elements(unsigned int *ptr, unsigned int size)
{    
        unsigned int i;
        uint32x4_t Q0,vector128Output;
        for( i=0;i<(SIZE/4);i++)
        {
                Q0=vld1q_u32(ptr);               
                Q0=vaddq_u32(Q0,Q0);
                vst1q_u32(ptr,Q0);
                ptr+=4;

        }
        return;
}

Интересно, отнимают ли операции загрузки / сохранения между массивом и вектором больше времени, что сводит на нет преимущества параллельного сложения.

ОБНОВЛЕНИЕ: Дополнительная информация в ответ на ответ Игоря. 1. Код размещен здесь: plain.c plain.s neon.c neon.s Из раздела (ярлыка) L7 в обоих листинговых сборках я вижу что версия neon имеет большее количество инструкций по сборке. (следовательно, требуется больше времени?) 2. Я скомпилировал с использованием -mfpu = neon на arm-gcc, без других флагов или оптимизаций. Для простой версии вообще без флагов компилятора. 3. Это была опечатка, SIZE должен был соответствовать размеру, оба одинаковые. 4,5. Пробовал на массиве из 4000 элементов. Я рассчитал время с помощью gettimeofday () до и после вызова функции. НЕОН = 230 мкс, обычный = 155 мкс. 6. Да, я распечатал элементы в каждом случае. 7. Сделал это, никаких улучшений.


         
            5

         
         
            arm neon cortex-a8         
         
         
            задан itisravi            20 April 2011 в 11:15 
         
         
         поделиться


  

      
    

    
   
   
      0 ответов
      

      
         
                     
      

            
          Другие вопросы по тегам:          
         arm neon cortex-a8       
        Похожие вопросы:

        
          
                          19 
 Лучшая платформа для изучения встроенного программирования? [закрытый] - 6 March 2012 16:17 
                            10 
 Предложения для самого соответствующего (лучшего) языка для программирования встроенной системы? [закрытый] - 30 August 2011 21:28 
                            9 
 Мы можем оптимизировать код для сокращения потребляемой мощности? - 24 October 2012 11:22 
                            8 
 Как начаться с процессорами ARM? - 6 August 2009 22:41 
                            7 
 Linux кросс-компиляция для архитектуры ARM - 22 October 2013 08:13 
                            7 
 Каков лучший Оценочный комплект для Изучения Встроенной Разработки C/C++? [закрытый] - 13 March 2009 22:50 
                            6 
 Поиск эффективного целочисленного алгоритма квадратного корня для ARM Thumb2 - 9 July 2009 05:14