- 永远不要在正式使用 AMP (
GradScaler) 训练时开启set_detect_anomaly(True)。 Anomaly Detection 会拦截正常的梯度溢出,导致网络无限崩溃。非 AMP 下,有助于定位梯度 bug,减半训练速度。 - 小心 Python 的导入传染。 全局状态配置代码(如异常检测、随机种子、CUDA 配置)切忌写在模块文件的顶层全局作用域中,以免因为
__init__.py导入链导致意想不到的全局感染。
最后修改:2026 年 05 月 26 日
© 允许规范转载