Сообщается, что Erlang используется в производственных системах уже более 20 лет с процентом безотказной работы 99,999999999%.
Я посчитал следующим образом:
20*365.25*24*60*60*(1 - 0.999999999) == 0.631 s
Это означает, что за 20 лет у системы было только менее одной секунды простоя. Я не пытаюсь оспорить достоверность этого, мне просто интересно, как мы можем отключить систему (намеренно или случайно) всего на 0,631 секунды. Может ли кто-нибудь, кто знаком с большими программными системами, объяснить нам это? Спасибо.
Кто-нибудь знает, как рассчитать время простоя службы на кластере вычислительных единиц (или машин)?