谷歌CEO称Gemini 2.5 Flash最多可将AI成本削减$1 billion

谷歌首席执行官桑达尔·皮查伊表示,谷歌云头部客户每天处理约1万亿个token,若将工作负载从其他前沿AI模型迁移,支出可显著下降。

摘要

谷歌首席执行官桑达尔·皮查伊表示,使用谷歌云的企业每天处理约1万亿个token,若将80%的工作负载从其他前沿模型迁移至Gemini 2.5 Flash,每年最多可节省$1 billion。该表述将Gemini 2.5 Flash定位为一款面向大规模推理工作负载的低成本人工智能模型,在这一场景中,定价效率会对企业采用产生重大影响。

术语与概念
  • Token: 人工智能模型处理的文本单位,通常用于衡量使用量和定价。
  • 前沿模型: 处于能力和性能领先前沿的先进大规模人工智能模型。
  • 推理: 运行人工智能模型并根据用户输入生成输出的过程。