1. 永远不要在正式使用 AMP (GradScaler) 训练时开启 set_detect_anomaly(True) Anomaly Detection 会拦截正常的梯度溢出,导致网络无限崩溃。非 AMP 下,有助于定位梯度 bug,减半训练速度。
  2. 小心 Python 的导入传染。 全局状态配置代码(如异常检测、随机种子、CUDA 配置)切忌写在模块文件的顶层全局作用域中,以免因为 __init__.py 导入链导致意想不到的全局感染。
最后修改:2026 年 05 月 26 日
如果觉得我的文章对你有用,请随意赞赏