1、参考MixFormer的vis-attn即可。使用hook钩子出attn矩阵(一般是dropout层)。
2、稍微改改vis_attn_maps代码即可
最后修改:2025 年 01 月 07 日
© 允许规范转载
1、参考MixFormer的vis-attn即可。使用hook钩子出attn矩阵(一般是dropout层)。
2、稍微改改vis_attn_maps代码即可
2 条评论
修辞手法运用娴熟,比喻贴切,感染力强。
文章深入浅出,既有深度思考,又不乏广度覆盖,令人叹为观止。