Anthropic 经济指数 V2:来自Claude 3.7 Sonnet 的洞察

date
Mar 28, 2025
slug
anthropic-economic-index-instights-from-claude-sonnet-3-7
status
Published
tags
AI
Agent
Reasearch
summary
type
Post
notion image
上个月,我们推出了Anthropic经济指数——这是一项新计划,我们定期发布数据和研究,旨在了解 AI 随着时间的推移对劳动力市场和经济的影响。
今天,我们发布了该指数的第二份研究报告,涵盖了 Claude 3.7 Sonnet 发布后 Claude.ai 的使用数据——这是我们最新且最强大的模型,擅长 Agentic Coding,并拥有新的“扩展思维”模式。
简而言之,我们最新的结果如下:
  • 自 Claude 3.7 Sonnet 发布以来,我们观察到在编码、教育、科学和医疗应用中的使用份额有所上升;
  • 人们主要使用 Claude 3.7 Sonnet 的新“扩展思维”模式来完成技术任务,包括与计算机科学研究员、软件开发人员、多媒体动画师和电子游戏设计师等职业相关的任务;
  • 我们正在发布关于任务和职业层面的增强/自动化分解数据。例如,与文案撰写者和编辑相关的任务呈现出最高程度的任务迭代量,即人类和模型共同撰写内容。相比之下,与笔译和口译相关的任务是指令行为数量最多的任务之一,即模型以最少的人工参与完成任务。
 
此外,我们首次发布了 Claude.ai 的自下而上使用分类法。这一新数据集涵盖了 630 个细分类别,从“帮助解决家庭管道、供水和维护问题”到“提供电池技术和充电系统指导”。我们希望这一自下而上的分类法对研究人员有所帮助,并揭示那些自上而下方法可能遗漏的使用场景,后者通常将使用情况映射到预定义的任务列表中。
 
这些分析的数据集可以免费下载

自 Claude 3.7 Sonnet 发布以来,有哪些变化?


上个月,我们推出了 Claude 3.7 Sonnet ,这是我们迄今为止最强大的模型,具备“扩展思维模式”。我们重新运行了之前的分析,覆盖了发布后 11 天的数据,涉及100万次匿名的Claude.ai 免费版 和Pro版对话。我们分析的大部分数据来自 Claude 3.7 Sonnet,因为它在 Claude.ai 和我们的移动应用中被设置为默认模型。
提醒一下,我们的隐私保护分析工具 Clio 将每次对话映射到美国劳工部O*NET数据库中的17,000个任务之一。然后,我们查看与这些任务相关的职业和高层次职业类别的整体模式。 在分析这100万次对话的细分数据时,我们发现几个职业类别的使用比例略有上升,包括编程、教育和科学领域。尽管由于Claude 3.7 Sonnet在编程基准测试中的得分提高,编程使用量的增加是意料之中的,但这些其他类别的增加可能反映了 AI 在整个经济中的持续传播、编程在这些领域的新应用,或是大模型在能力上出乎意料的提升。
在我们的原始数据样本发布后的两个月里,我们看到在编码、教育和科学领域的使用份额有所增加。图表显示了Claude.ai免费版和专业版在O*NET顶级职业类别中的流量份额。灰色部分显示了我们在第一份报告中涵盖的2025年12月至2025年1月数据的分布情况。彩色条显示了2025年2月至2025年3月新数据中份额的增加(绿色)和减少(蓝色)。请注意,图表显示的是使用份额而非绝对使用量。有关完整职业类别列表的变化图表,请参见附录。
在我们的原始数据样本发布后的两个月里,我们看到在编码、教育和科学领域的使用份额有所增加。图表显示了Claude.ai免费版和专业版在O*NET顶级职业类别中的流量份额。灰色部分显示了我们在第一份报告中涵盖的2025年12月至2025年1月数据的分布情况。彩色条显示了2025年2月至2025年3月新数据中份额的增加(绿色)和减少(蓝色)。请注意,图表显示的是使用份额而非绝对使用量。有关完整职业类别列表的变化图表,请参见附录。
 

人们如何使用扩展思考模式?


Claude 3.7 Sonnet 引入了一种新的“扩展思考”模式,当用户激活该模式时,模型能够在回答更复杂的问题时进行更长时间的思考。 我们的分析显示,Claude 3.7 Sonnet 的扩展思维模式主要应用于技术和创造性问题解决场景。与计算机和信息研究科学家相关的任务中,有近 10% 使用了扩展思维,其次是软件开发人员,约为 8% 。与数字创意角色相关的任务,如多媒体艺术家(约7%)和电子游戏设计师(约6%),也显示出较高的使用率。
虽然这些早期的使用模式揭示了人们选择使用扩展思维模式的情境,但关于这一新模型能力的许多重要问题仍然存在。为了推动这一领域的进一步研究,我们发布了一个新的数据集,将每个O*NET任务与其相关的思维模式比例进行映射。该数据集可在我们的Hugging Face页面上获取。
哪些任务与扩展思维模式的使用率最高?图表显示了在相关任务中思维模式使用率最高的O*NET职业。展示的职业仅限于在数据中至少占0.5%的职业。
哪些任务与扩展思维模式的使用率最高?图表显示了在相关任务中思维模式使用率最高的O*NET职业。展示的职业仅限于在数据中至少占0.5%的职业。

增强与自动化在不同任务和职业中的差异如何?


在我们的上一份报告中,我们分析了人工智能在增强性使用(如学习或迭代输出)和自动化使用(如要求模型直接完成任务或调试错误)之间的差异。我们的分析显示,在新数据中,增强性和自动化的平衡基本保持不变,增强性使用仍占 57%。然而,我们确实看到了一些自动化和增强性使用类型的变化——例如,我们观察到学习互动(用户向 Claude 询问不同主题的信息或解释)的比例从约 23%上升到了约 28%。 在我们的两个数据样本(V1和V2)之间的两个月里,增强和自动化之间的平衡保持相对稳定,尽管学习类对话的比例明显增长。
我们通过研究者输入表单收到了许多请求,要求发布任务和职业层面的自动化和增强数据。我们在此报告中提供了这些数据,并在我们的Hugging Face页面上进行了发布。
当按高级职业类别划分数据时,我们发现某些类别的增强程度较高;例如,社区和社会服务任务,包括教育和指导咨询,接近 75% 的增强。而在另一个极端,与生产或计算机和数学相关的任务,我们看到平衡更接近 50 - 50%。我们没有发现任何职业类别中自动化占据主导地位。
不同互动模式在高级职业类别中的比例。展示的职业类别仅限于数据中占比至少为0.5%的类别。
不同互动模式在高级职业类别中的比例。展示的职业类别仅限于数据中占比至少为0.5%的类别。
进一步细化,我们还可以查看这些职业类别中的具体职业,以及与该职业相关的任务。例如,与文案撰写者和编辑相关的任务显示出最高的任务迭代量,即用户使用模型迭代各种编写和编辑任务。。相比之下,与翻译和口译相关的任务则显示出最高程度的指令性行为——即大模型用于翻译文档,而人类参与最少。需要注意的是,O*NET 的描述可能并不能完全代表 Claude 的使用情况——例如,虽然我们看到在“美术家,包括画家、雕塑家和插画家”这一职业中的使用,但 Claude 可能更多地用于创作数字艺术,而不是绘画或雕塑。
notion image
按交互类型排名靠前的职业。对于五个交互类别(学习、任务迭代、验证、指令和反馈循环)中的每一个,我们绘制了该类别中使用比例最高的职业。例如,图书馆员的学习交互比例最高,为 ~56%,而文案作者在任务迭代中领先,为 ~58%。每个面板都包含职业中对该交互模式贡献最大的 O*NET 任务;这基于任务发生的频率以及该交互模式在任务中的使用频率。请注意,O*NET 描述可能无法最好地代表 Claude 的用途 — 例如,虽然我们看到 “美术家,包括画家、雕塑家和插画家” 这个职业的用法,但在 Claude.ai 上的用法可能更倾向于数字艺术而不是雕塑。仅显示在整个数据集中至少占 0.5% 的职业。
按交互类型排名靠前的职业。对于五个交互类别(学习、任务迭代、验证、指令和反馈循环)中的每一个,我们绘制了该类别中使用比例最高的职业。例如,图书馆员的学习交互比例最高,为 ~56%,而文案作者在任务迭代中领先,为 ~58%。每个面板都包含职业中对该交互模式贡献最大的 O*NET 任务;这基于任务发生的频率以及该交互模式在任务中的使用频率。请注意,O*NET 描述可能无法最好地代表 Claude 的用途 — 例如,虽然我们看到 “美术家,包括画家、雕塑家和插画家” 这个职业的用法,但在 Claude.ai 上的用法可能更倾向于数字艺术而不是雕塑。仅显示在整个数据集中至少占 0.5% 的职业。
 

Claude.ai使用情况的自下而上分类法


到目前为止,我们的研究依赖于美国劳工部创建和维护的 O*NET 任务和职业数据集。虽然 O*NET 涵盖了非常多的任务,但它可能不是描述通用模型能力的最佳分类法,因为这些模型可以用于 O*NET 中未包含的任务——因此可能会被我们的分析遗漏。
为了弥补这一差距,我们发布了一个新的自下而上的数据集,记录了 Claude.ai 上的用户活动模式。该数据集也是使用 Clio 创建的,并使用了与上述分析相同的匿名对话数据集,这意味着它能够实现自上而下和自下而上方法之间的比较。它包含 630 个细粒度集群,每个集群都有相关的描述、流行度指标以及自动化/增强的细分,并组织成三个层次结构。
虽然我们将对这个数据集的详细分析留给未来的工作,但我们重点介绍了一些特别有趣的集群:
  • 协助水管理系统和基础设施项目
  • 使用交互式可视化功能创建基于物理的仿真
  • 协助字体选择、实施和故障排除
  • 协助创建或改进求职材料
  • 提供有关电池技术和充电系统的指导
  • 协助在代码和数据库中处理时区
 

结论


随着模型的不断进步,我们对它们经济影响的衡量也必须跟进。在我们的第二份报告中,涵盖了自Claude 3.7 Sonnet 发布以来的数据,我们发现编码、教育和科学用例的增长相对温和,增强与自动化的平衡没有变化。我们发现 Claude 的新扩展思维模式在技术领域和任务中使用频率最高,并识别了跨任务和职业的自动化/增强模式。我们发布了这两项分析的数据集。
在接下来的几个月里,我们计划继续跟踪这些指标,并随着能力的提升和模型在经济中的广泛应用,开发新的指标。
 

附录


我们在本附录中分享了一些额外的结果和技术细节。

任务曲线

我们还重新计算了原始论文中的“任务使用深度”图。我们发现,与第一次分析相比,曲线总体上非常相似。如果有什么不同的话,我们发现新模型的曲线下面积略有减少——这可能是由于我们的对话样本中编码的集中度增加所致。尽管如此,虽然我们在过去两个月内没有看到这条曲线发生显著变化,但随着模型能力和产品表面的不断进步,我们将继续对其进行监控。
不同职业中任务使用的深度。例如,图表显示约40%的职业在其至少20%的任务中使用了AI(其中x=0.2,y≈0.4)。我们的第一份和第二份报告之间的曲线变化不大。
不同职业中任务使用的深度。例如,图表显示约40%的职业在其至少20%的任务中使用了AI(其中x=0.2,y≈0.4)。我们的第一份和第二份报告之间的曲线变化不大。
 

职业类别的全面变化

各职业类别的使用百分比份额,显示原始报告(灰色条)中的值,以及第二个报告中相应的增加(黄色)和减少(蓝色)。计算机和数学职业是绝对增长最大的类别 (+3%),而教育和科学等几个类别则显示出显着的百分比增长。
各职业类别的使用百分比份额,显示原始报告(灰色条)中的值,以及第二个报告中相应的增加(黄色)和减少(蓝色)。计算机和数学职业是绝对增长最大的类别 (+3%),而教育和科学等几个类别则显示出显着的百分比增长。

其他交互模式的结果

notion image
notion image
 
按交互类型排名靠前的职业。对于五个交互类别(学习、任务迭代、验证、指令和反馈循环)中的每一个,我们绘制了该类别中使用比例最高的职业。例如,图书馆员的学习交互比例最高,为 ~56%,而文案作者在任务迭代中领先,为 ~58%。每个面板都包含职业中对该交互模式贡献最大的 O*NET 任务;这基于任务发生的频率以及该交互模式在任务中的使用频率。其他学习模式的图表显示在文章的正文中。 请注意,O*NET 描述可能无法最好地代表 Claude 的用途 — 例如,虽然我们看到 “fine artists, including painters, sizer, and illustrators” 这个职业的用法,但 Claude.ai 上的用法可能更倾向于数字艺术而不是雕塑。仅显示在整个数据集中至少占 0.5% 的职业。
按交互类型排名靠前的职业。对于五个交互类别(学习、任务迭代、验证、指令和反馈循环)中的每一个,我们绘制了该类别中使用比例最高的职业。例如,图书馆员的学习交互比例最高,为 ~56%,而文案作者在任务迭代中领先,为 ~58%。每个面板都包含职业中对该交互模式贡献最大的 O*NET 任务;这基于任务发生的频率以及该交互模式在任务中的使用频率。其他学习模式的图表显示在文章的正文中。 请注意,O*NET 描述可能无法最好地代表 Claude 的用途 — 例如,虽然我们看到 “fine artists, including painters, sizer, and illustrators” 这个职业的用法,但 Claude.ai 上的用法可能更倾向于数字艺术而不是雕塑。仅显示在整个数据集中至少占 0.5% 的职业。
 

附加的方法论细节


虽然我们主要遵循原始报告的方法论,但为了透明起见,我们在此记录了一些更改:
  • 与上一份报告不同,我们不再根据对话是否与职业类别相关进行过滤。相反,我们只是过滤掉那些触发了我们安全分类器的对话。我们发现这些方法得出的结果与我们的原始分析相似,同时保留了更多可以通过我们的自下而上的使用分类法发布的数据。
  • 我们在所有先前使用 Claude 3.5 Sonnet 的地方改用 Claude 3.7 Sonnet 。我们发现,使用我们更新的模型提高了分类的准确性,这是根据我们用于评估 Clio 准确性的内部基准得出的结论。

© 溪河 2021 - 2025