谷歌CEO称Gemini 2.5 Flash最多可将AI成本削减$1 billion

谷歌首席执行官桑达尔·皮查伊表示，谷歌云头部客户每天处理约1万亿个token，若将工作负载从其他前沿AI模型迁移，支出可显著下降。

34d ago

摘要

谷歌首席执行官桑达尔·皮查伊表示，使用谷歌云的企业每天处理约1万亿个token，若将80%的工作负载从其他前沿模型迁移至Gemini 2.5 Flash，每年最多可节省$1 billion。该表述将Gemini 2.5 Flash定位为一款面向大规模推理工作负载的低成本人工智能模型，在这一场景中，定价效率会对企业采用产生重大影响。

术语与概念

Token: 人工智能模型处理的文本单位，通常用于衡量使用量和定价。
前沿模型: 处于能力和性能领先前沿的先进大规模人工智能模型。
推理: 运行人工智能模型并根据用户输入生成输出的过程。