Производительность цикла кода C [продолжение]

Question

Производительность цикла кода C [продолжение]

Этот вопрос продолжает мой вопрос здесь (по совету Mystical):

Продолжая мой вопрос, когда я использую упакованные инструкции вместо скалярных инструкций, код, использующий встроенные функции, будет выглядеть очень аналогично:

for(int i=0; i

Измеренная производительность этого ядра составляет около 5,6 операций FP за цикл, хотя я ожидаю, что она будет ровно в 4 раза выше, чем у скалярной версии, т. е. 4,1,6 = 6,4 операций FP за цикл.

С учетом хода весового коэффициента (спасибо, что указали на это), расписание выглядит так:

Похоже, что расписание не меняется, хотя после movss есть лишняя инструкция операция, которая перемещает скалярное значение веса в регистр XMM, а затем использует shufpsдля копирования этого скалярного значения во весь вектор. Похоже, что весовой вектор готов к использованию для mulpsво времени, принимая во внимание задержку переключения с нагрузки на область с плавающей запятой, так что это не должно вызвать дополнительной задержки.

Инструкции movaps(выровненное, упакованное перемещение), addpsи mulps, которые используются в этом ядре (проверено с помощью ассемблерного кода), имеют одинаковую задержку. & пропускная способность как их скалярные версии, поэтому это также не должно вызывать дополнительных задержек.

Есть ли у кого-нибудь идеи, на что тратится этот дополнительный цикл из 8 тактов, если предположить, что максимальная производительность, которую может получить это ядро, составляет 6,4 операций FP за цикл, а оно работает со скоростью 5,6 операций FP за цикл?

Кстати, вот как выглядит реальная сборка:

…
Block x: 
  movapsx  (%rax,%rcx,4), %xmm0
  movapsx  0x10(%rax,%rcx,4), %xmm1
  movapsx  0x20(%rax,%rcx,4), %xmm2
  movapsx  0x30(%rax,%rcx,4), %xmm3
  movssl  (%rdx,%rcx,4), %xmm4
  inc %rcx
  shufps $0x0, %xmm4, %xmm4               {fill weight vector}
  cmp $0x32, %rcx 
  mulps %xmm4, %xmm0 
  mulps %xmm4, %xmm1
  mulps %xmm4, %xmm2 
  mulps %xmm3, %xmm4
  addps %xmm0, %xmm5 
  addps %xmm1, %xmm6 
  addps %xmm2, %xmm7 
  addps %xmm4, %xmm8 
  jl 0x401ad6  
…


         
            83

         
         
            assembly c instructions intel performance         
         
         
            задан Community            23 May 2017 в 11:54 
         
         
         поделиться


  

      
    

    
   
   
      0 ответов
      

      
         
                     
      

            
          Другие вопросы по тегам:          
         assembly c instructions intel performance       
        Похожие вопросы:

        
          
                          65 
 Каково худшее реальное злоупотребление macros/pre-processor, с которым Вы когда-либо сталкивались? - 23 May 2017 12:34 
                            55 
 Какие важные понятия в Си, которые вы не узнали от своих учителей? [закрыто] - 6 September 2017 17:22 
                            51 
 Почему это считают плохой практикой для исключения фигурных скобок? [закрытый] - 19 August 2016 17:07 
                            48 
 Скрытые возможности C - 25 September 2017 20:52 
                            44 
 Утечки памяти, когда-нибудь в порядке? [закрытый] - 2 October 2011 04:00 
                            39 
 Форматирование если Операторы - 17 January 2014 19:45 
                            39 
 Какую самую нелепую пессимизацию вы видели? [закрыто] - 3 May 2012 14:43