отказоустойчивость в MPICH / OpenMPI

У меня два вопроса -

Q1 . Есть ли более эффективный способ справиться с ошибкой в ​​MPI, кроме контрольной точки / отката? Я вижу, что если узел "умирает", программа резко останавливается ... Есть ли способ продолжить выполнение после того, как узел умирает ?? (нет проблем, если это происходит за счет точности)

Q2 . Я прочитал в "http://stackoverflow.com/questions/144309/what-is-the-best-mpi-implementation", что OpenMPI имеет лучшую отказоустойчивость, и недавно MPICH-2 также представил аналогичные функции ... кто-нибудь знает, что это такое и как их использовать? это "режим"? могут ли они помочь в ситуации, изложенной в Q1 ?

любезный ответ. Спасибо.

10
задан Wesley Bland 15 July 2013 в 15:50
поделиться