Anthropic 发布了两篇关于可解释性研究的重要论文，展示了他们如何通过“AI 显微镜”深入理解 Claude 模型的内部机制。这些研究揭示了 Claude 在多语言处理、诗歌创作、数学推理、幻觉控制等方面的“思维过程”，并提出了一种新的分析方法：将模型内部的“特征”连接成“电路”，以追踪其计算路径。

追踪大模型是如何思考的丨 Anthropic

Anthropic 经济指数 V2：来自Claude 3.7 Sonnet 的洞察