Какие настройки лучше всего подходят для таких вещей, как MXCSR ? Какой режим округления самый быстрый? На каких процессорах? Быстрее ли включить сигнализацию NaN, чтобы я был проинформирован, когда вычисление приводит к nan, или это вызывает замедление вычислений без NaN?
В общем, как получить максимальную скорость из тесных внутренних циклов SSE ?
Также приветствуются любые рекомендации по скорости вычислений с плавающей запятой x87.