Ошибка графического процессора Tensorflow: ресурс Исчерпан в середине обучения модели

Каждая переменная в python (например, как dict1 или str или __builtins__ является указателем на некоторый скрытый платонический «объект» внутри машины.

Если вы установите dict1 = dict2, вы просто укажите dict1 на тот же объект (или местоположение памяти или любую другую аналогию, которая вам нравится), как dict2. Теперь объект, на который ссылается dict1, является тем же объектом, на который ссылается dict2.

Вы можете проверить: dict1 is dict2 должен быть True. Кроме того, id(dict1) должен быть таким же, как id(dict2).

Вы хотите dict1 = copy(dict2) или dict1 = deepcopy(dict2).

Разница между copy и deepcopy? deepcopy гарантирует, что элементы dict2 (вы указали его в списке?) также являются копиями.

't использовать deepcopy много - это, как правило, плохая практика писать код, который ему нужен (на мой взгляд).

0
задан rahulgarg12342 13 July 2018 в 12:10
поделиться

1 ответ

Это не похоже на ошибку GPU Out Of Memory (OOM), но больше похоже на то, что у вас не хватило места на локальном диске, чтобы сохранить контрольную точку вашей модели.

Вы уверены, что у вас есть достаточно места на вашем диске или что папка, которую вы сохраняете, не имеет quotta?

1
ответ дан Olivier Dehaene 17 August 2018 в 12:56
поделиться
  • 1
    Я тоже думаю, что это не GPU OOM. Если вы думаете, что это OOM, то 1. Периодически перезагружайте процесс. Контрольная точка на каждом шаге 10000 шагов и остановите процесс обучения и перезапустите. Это приведет к сбросу фрагментации памяти. 2. Настройте TF_CUDNN_WORKSPACE_LIMIT_IN_MB на меньшее число. Значение по умолчанию - 4 ГБ. – ReInvent_IO 13 July 2018 в 15:53
  • 2
    Правильно, только что проверили, и на диске закончилось свободное пространство. Мог исправить это, прежде чем я проверил ответ. Большое спасибо, однако :) – rahulgarg12342 31 July 2018 в 14:06
Другие вопросы по тегам:

Похожие вопросы: