OpenAI推出GDPval,衡量人工智能在经济价值任务中的表现

该工具评估人工智能在美国九大关键行业的44个职业中的表现,初步结果显示Claude Opus 4.1在许多情况下可与专家水平持平或超越。

摘要

正在验证可靠性

术语与概念

此主题没有可用的专业术语。