Дополнение к ответам HABO и Rafi.
Для моего случая мне пришлось указать значение DATEDIFF для bigint, потому что мое значение стало слишком большим и вызвало ошибку арифметического переполнения.
CAST(DATEADD( ms,AVG(CAST(DATEDIFF( ms, '00:00:00', ISNULL(e.Duration, '00:00:00')) as bigint)), '00:00:00' ) as TIME) as 'avg_time'
В каждой модели, которую мы определяем, существуют параметры и затем существуют гиперпараметры. Параметры главным образом состоят из весов и предвзятости, в то время как гиперпараметры состоят из количества фильтров, размера фильтра, процента отсеявшихся, темп обучения и т.д.
Возвращение к Вашему вопросу, в модели мы обучаем слои уменьшать потерю и оптимизировать параметры, сохраняя гиперпараметры постоянными. Так, в то время как обратная связь, где мы применяем спуск градиента или любой другой алгоритм оптимизации, мы обновляем веса и предвзятость после каждого шага обратной связи.
В простых словах, обучаемые параметры оптимизированы, в то время как обучение, тогда как необучаемые параметры не становятся оптимизированными в то время как обучение.