OpenAI新开源的项目:Transformer Debugger
地址:github.com/openai/transformer-debugger
Transformer Debugger(TDB)是由 OpenAI 的超级对齐团队开发的工具,旨在支持对小型语言模型特定行为的研究。该工具结合了自动化的可解释性技术与稀疏自编码器。
TDB 可以用来回答问题如:“为什么模型对于这个提示输出token A 而不是token B?”或者“为什么 attention head H 会关注这个提示的token T?”它通过识别对行为有贡献的特定组件(神经元、注意力头、自编码器潜在变量),展示自动生成的解释。