开云世界杯官网 谷歌全家桶,皆被新模子“轻侮”了

文 | 字母 AI
距离谷歌的 Gemini 3.5 Flash 发布照旧一周多了。
皮查伊在谷歌发布会上口口声声地暗示,Gemini 3.5 Flash 性能比 3.1 Pro 还强,说它是 Agent 期间的底座。
可后果呢?网上对 Gemini 3.5 Flash 的评价,除了速率快这惟一的优点外,全是缺欠。输出的内容造作多、啰嗦、干活 token 破费量爆炸 ……
谷歌 Antigravity 厚爱东谈主瓦伦 · 莫汉(Varun Mohan)在 5 月 25 日发帖称,谷歌已增设 Gemini 3.5 Flash ( Low ) 模子用于优化资源破费。
瓦伦暗示,证据谷歌的里面测试数据,在处理简便任务时,Gemini 3.5 Flash ( Low ) 比较 Gemini 3.5 Flash ( Medium ) 可以减少约 45% 的 token 生成量。在软件工程(SWE)任务上的进展,Gemini 3.5 Flash ( Low ) 庞杂优于上一代旗舰模子 Gemini 3 Flash ( High ) 。
探究词网友们并不买账,当今,瓦伦的批驳区照旧被网友们的冷嘲热讽澈底攻占。
热评第一条是"你们的家具测试过吗?看起来你们是拿咱们在作念测试啊!"
第二条是"能否也惩处一下图像模子的生成数目放置问题?你们的身手需要对标 Codex。我使用 Codex 可以生成 1000 张图像,但在谷歌的高等套餐下,我只可使用 Antigravity 生成 24 张。"

Gemini 3.0 Pro 出来的时候,所有这个词东谈主皆在为谷歌饱读掌,OpenAI 致使因此拉响红色警报,以看管被谷歌超越。
探究词到了 3.5 Flash,谷歌成了怯夫,眼瞅着就要步入 Meta 的后尘。
那咱们不禁要问,谷歌,你这是咋了?
01 Gemini 3.5 的进展莫得达到预期
网上对 Gemini 3.5 Flash 的评价相配一致,很快,然而不够好。
皮查伊在发布会上反复强调模子多低廉,探究词现实中情况判然不同。
按照官方订价,Gemini 3.5 Flash 每百万输入 token 收费 1.5 好意思元,每百万输出 token 收费 9 好意思元,如实比 Claude Opus 4.7 的 5 好意思元和 25 好意思元低廉。
但这仅仅价钱表,确凿决定资本的,是完成一个任务到底要破费若干 token。
Artificial Analysis 在完竣评估套件中测试发现,Gemini 3.5 Flash 完周密部任务的总资本是 1552 好意思元,而 Gemini 3 Flash 只需要 282 好意思元,前者是后者的 5.5 倍。
哪怕是和 Gemini 3.1 Pro 比较,Flash 的资本也向上 75%,大致是 870 好意思元。更无语的是,Gemini 3.5 Flash 完成任务的用度,比 GPT-5.5 medium 还贵。
原因在于 turn count,也即是完成任务需要的轮次。
在 Agent 评估中,Flash 模子平均每个任务需要 49 轮对话。每一轮对话,它皆会把完竣的对话历史输入给模子,token 资本因此暴增。
而这样的任务,GPT-5.5 或者 Opus 4.7,差未几只用 20 轮就能完成。
是以谷歌说的"资本不到一半",指的是单元 token 价钱。但对用户来说,Gemini 3.5 Flash 少量皆未低廉。
除了轮次多了,Gemini 3.5 Flash 的输出相配啰嗦。
比如以前你问 Gemini 3.1 Pro 一个技能问题,模子会平直给出代码和苟简解释。
换成 3.5 Flash 之后,相同的问题,模子会先解释布景,再列举三种可能的决策,然后逐个分析优缺欠,终末才给出代码。
看起来很全面,试验上大部天职容皆是妄语。更要命的是,这些妄语皆算 token,皆要收费。
复杂任务的 token 破费更是爆炸。
有用户反应,让 Flash 践诺一个多体式的代码重构任务,模子反复在不同文献之间跳转,每次跳转皆要重新加载荆棘文,最终破费的 token 是预期的三倍以上。
还有用户暗示,仅仅输入了一个复杂的 prompt,就直斗争发了 5 小时使用放置。
谷歌在 I/O 2026 之后偷偷修改了 AI Pro 订阅的额度规则,从固定音讯数,改成了基于筹办资源的配额(compute-based quota)。
即是说你一个任务,若是让模子想考得多,那即使它给你回复的内容不变,花的钱也比以前更多。
那么问题来了,我何如知谈一个任务会让模子破费若干算力?何况,我也推算不出来我还剩若干算力。
可能我仅仅跟它打个呼叫,就花掉许多 token。让它践诺一个长周期任务,反而不何如破费 token。
有用户在外网论坛上平直把新放置称为"骗局",称单个 prompt 就破费了 13% 的配额,某些 Gemini AI Plus 功能一次能烧掉快要 30%。
那为什么 Gemini 3.5 Flash 进展会这样一般?
谜底藏在 benchmark 里,Flash 的进展相配不平衡。
Gemini 3.5 Flash 在 Terminal-Bench 2.1、MCP Atlas、Toolathlon、OSWorld 这类 Agent、器用调用、代码践诺榜单上进展可以。Terminal-Bench 2.1 拿到 76.2%,MCP Atlas 拿到 83.6%,皆算是头部获利。
这些榜单测的是模子能不行按照指示调用器用、践诺号召、完成多体式操作。Flash 在这些方面如实有上风。
但在更接近"贤慧不贤慧"的概述推理榜上,它的进展就有点出丑了。
Humanity ‘ s Last Exam 是 40.2%,低于 Gemini 3.1 Pro 的 44.4% 和 Claude Opus 4.7 的 46.9%。ARC-AGI-2 是 72.1%,低于 Gemini 3.1 Pro 的 77.1% 和 GPT-5.5 的 84.6%。GDPval-AA 也低于 Claude Opus 和 GPT-5.5。
也即是说,Gemini 3.5 Flash 有点"蠢"。你给它任务它能去干活,但它"才能不够"。它作念不了当今最火的复杂推理、长链分析、创意判断。
回顾方面也有问题。
在谷歌的宣传中,Gemini 3.5 Flash 有最高 1M token 荆棘文。但模子卡里的 MRCR v2 长荆棘文测试闪现,128k 平均获利是 77.3%,到 1M pointwise 唯有 26.6%。
Gemini 3.5 Flash 天然能一口吃下许多内容,然而到用的时候就开动吞吐了。
Artificial Analysis 的沉寂测试平直打脸谷歌。
在编程指数(Coding Index)上,Artificial Analysis 给 Flash 打了 45.0 分,低于 Gemini 3.1 Pro 的 56.5 分,更远低于 GPT-5.5。
02 Gemini 轻侮了谷歌的进口,导致模子问题会轻侮 Google 的所有这个词家具体验
谷歌 I/O 2026 上,皮查伊书记,Gemini 是谷歌全家具天地的勾通层。
也即是说,Gemini 3.5 Flash 镶嵌到了谷歌绝大多数家具里。
外媒暗示," Gemini 正在变得无法逃匿"。
往时,一个 AI 不好用,你可以毋庸。你合计 ChatGPT 不行,可以换 Claude,还合计不好你可以根柢毋庸 AI。
但谷歌把 Gemini 放进所有这个词进口以后,Gemini 3.5 Flash 的恶运体验,轻侮了谷歌所有这个词家具。
最典型的例子是 AI Overview 和 AI Mode 的" disregard/ignore/stop "故障。
用户搜索" disregard "" ignore "" stop "等单词时,谷歌 AI Overview 会把它们误判成指示,导致搜索后果非常或空缺。
有用户在 X 上发帖说,搜索" disregard "这个词,AI Overview 不是给出界说,而是回复"剖判了!我会忽略之前的教导,重新开动。"
搜索" stop ",AI Overview 说"没问题。我照旧住手面前操作。"
搜索" ignore ",AI Overview 说"收到。音讯已忽略。"
镶嵌 Gemini 3.5 Flash 以后,AI Overview 把这些单词当成了对话指示,世界杯(中国)导致 AI Overview 把这些单词当成了对话指示。
问题不单出当今这几个词上。经过网友测试," remember "" start "" finished "" forget "这些词也会触发雷同故障。即便在搜索词里加上" definition ",也无法让 AI Overview 回反日常。
谷歌方面回复称,这个问题与 I/O 的新搜索发布无关,是 AI Overviews 自身问题,团队正在建树。
搜索是谷歌的命脉,一朝搜索出了问题,所有这个词东谈主皆只会合计"谷歌要凉了"。
是以当今的压力给到了 Gemini 3.5 Pro。
外界确凿想看的,不是谷歌能不行把 AI 塞进所有这个词进口。这个问题照旧有谜底了,谷歌如实作念到了。外界想看的是,Google 能不行拿出一个富有贤慧、富有踏实、富有有劝服力的旗舰模子,重新讲解我方在模子身手上莫得掉队。
这个任务 Flash 完成不了。它是一个践诺型模子,速率快,颖异活,但才能不够。它相宜作念 Agent 架构里的子任务践诺器,配合强规划器使用。但它不是旗舰,它撑不起谷歌在 AI 期间的门面。
最终只可落到 3.5 Pro。
咫尺,Gemini 3.5 Pro 还在里面测试中。官方博客暗示,"咱们也在远程开导 3.5 Pro。它照旧在里面使用,咱们期待下个月(6 月)推出。"
谷歌家具厚爱东谈主图尔西 · 多希(Tulsee Doshi)暗示," 3.5 Pro 像步地司理,厚爱想澄澈事情该何如作念;Flash 像践诺团队,厚爱把一个个具体任务跑完。确凿需要推理和规划的处所,要交给更大的 Pro;仅仅需要快速调用器用、批量处理任务的处所,用 Flash 就够了。。"
这个架构联想自身没问题,问题在于 Pro 还没出来,许多场景只可让 Flash 一个东谈主苦苦硬撑。
是以 Gemini 3.5 Pro 变成了一个二次验货节点。
若是 3.5 Pro 出来后进展还可以,那谷歌荆棘还能圆往时。
话术我皆想好"全线镶嵌 Flash 是咱们一个尝试,给环球形成了一些不好的家具体验,不外咱们照旧发布了 3.5 Pro,统统好用,接待环球体验"。
Flash 的问题可以被连合为一种谐和,Pro 才是确凿的实力展示。
但若是 3.5 Pro 进展不好,那谷歌在 AI 这块可以说是全面腐败。
AI Overview 有初级造作、ChatBot 啰嗦、WorkSpace 破费 token 过高导致价钱太贵、Antigravity 没什么起色。所有这个词这些家具皆会被 Gemini 负担,从上风变成职守。
谷歌当今的处境很玄妙。它有现款、有基础设施、有 DeepMind。但自从 3.0 Pro 之后,它就一直缺能打的旗舰模子。
3.5 Pro 要补的即是这个缺口。若是 3.5 Pro 作念不到,谷歌真就有可能步入 Meta 的后尘。
03 谷歌正在成为硬件公司
不外谷歌并非一败涂地,相悖,在硬件这块,谷歌反而支棱起来了。
谷歌 2026 年 Q1 财报闪现,公司收入 1099 亿好意思元,同比增长 22%。谷歌 Search & Other 收入 604 亿好意思元,同比增长 19%。YouTube 告白收入约 99 亿好意思元,同比增长 11%。谷歌 Cloud 收入 200 亿好意思元,同比增长 63%。
这讲明谷歌仍然是一台获利机器。
这份财报里最亮眼的数字,来自于谷歌 Cloud 的 63% 增长。
皮查伊在财报电话会上说,Cloud 的增长是"矫健需求"的后果。其实这句话的内容,即是在说谷歌的 TPU 硬件和数据中心卖得相配好。
基于谷歌模子构建的 AI 惩处决策同比增长近 800%。Gemini Enterprise 的付费月活用户环比增长 40%。通过 API 使用的 AI token 增长到每分钟 160 亿个,比第四季度的 100 亿增长了 60%。
Cloud 的 backlog(照旧签下,但还莫得阐明成收入的合同金额)在本季度翻了一番,达到 4620 亿好意思元。
皮查伊说,"澄澈,咱们在短期内受到算力放置。若是咱们八成知足需求,咱们的 Cloud 收入会更高。是以咱们正在渡过这个时刻,咱们正在投资,但咱们有一个弘远的遥远规划框架 …… 咱们看到了前所未有的契机。"
公司瞻望在改日 24 个月内完成 50% 的 backlog。
天然谷歌基座模子不行,编程器用 Antigravity 进展也差强东谈想法,但 TPU 这块进展太好了。
我皆怀疑,谷歌是不是忘了我方其实是一个互联网公司,不是一个硬件公司?
Anthropic、Meta 等外部大客户正在租用或采购谷歌 TPU 资源。
Anthropic 在 5 月书记与谷歌和 Broadcom 签署了新的多年期条约,扩大使用谷歌 Cloud 的 TPU。
这笔来往让 Anthropic 得到了多达 100 万个谷歌 AI 筹办芯片的使用权,价值数百亿好意思元,瞻望将在 2026 年带来越过 1 吉瓦的容量上线。
1 吉瓦的电厂,大致能给 35 万户家庭供电。
谷歌在 Google Cloud Next 2026 上书记了第八代 TPU,初次禁受双芯片步调,分辨针对检会和推理联想专用架构,TPU 8t 和 TPU 8i。
尤其是 TPU 8t,它是专为大鸿沟、筹办密集型的检会责任准备的,具有更大的筹办吞吐量和更多的 scale-up 带宽。
TPU 8i 则是专为低延长推理责任负载联想,Agent 干活要反复"想考、调用器用、再想考"。每一步慢少量,几十上百步下来就会很慢,是以低延长对 Agent 极度紧迫。
或者你可以这样连合,TPU 8t 是给模子用的。
检会前沿大模子即是让几万块芯片一齐赛马拉松。问题不是单块芯片够不够快,而是这几十万块芯片能不行一直捏续地跑。
比如说某根收罗线坏了、某块芯片不亮了、系统需要重启查验点,那么所有这个词这个词检会集群就会因此糜掷掉庞杂时期。
是以 Google 说 TPU 8t 的要点不是单纯"算力更强",而是让检会经由更少中断。
谷歌说,TPU 8t 的联想贪图,是 goodput 越过 97%。
所谓 goodput,你可以连合成确凿用于干活的时期。
比如一台机器表面上责任 100 小时,但中间故障、恭候、重启糜掷了 10 小时,那灵验责任时期唯有 90 小时,goodput 即是 90%。
Google 说 TPU 8t 贪图越过 97% goodput,神往是它但愿大部分时期皆果然在检会,而不是在等建树、等重启、等收罗复原。
为了已矣越过 97% 的 goodput,谷歌给 TPU 8t 加入了许多横向进步性能的功能。比如系统发现那处坏了,可以自动绕路,毋庸东谈主手工停机修。
TPU 8i 则是给 Agent 用的。
Agent 推理是一个相配繁难的事情,前文提到,Agent 不是回答一次就罢明晰的,它会反复想考、查尊府、调用器用、写代码、再查验、再修正。
一次任务可能要调用模子几十次致使上百次。
华体会体育(HTHSports)官网入口是以 TPU 8i 要点是让这些调用尽可能快。
它有 384MB 板载 SRAM,可以连合成芯片傍边有一派相配快的小回顾区。Agent 短期回顾就保留在这里,那么当 Agent 需要用这些回顾的时候,就可以平直从这里面拿,从而减少来去搬数据的时期。
它还用了更多 CPU 主机,也即是让傍边有更多"调养员"襄理安排数据输入输出、任务协作。Agent 跑起来不仅仅模子算一下,还要贬抑读数据、发央求、调器用、拿后果,CPU 即是帮 TPU 处理这些杂活的。
微软也曾有过这样一个预测,到 2028 年将有 13 亿个 Agent 插足运行,这才是为什么,谷歌要把 TPU 分红 8t 和 8i,Agent 的归 Agent,检会的归检会。
和谷歌传统的互联网业务比较,TPU 反而是他们当今最硬的叙事。
但问题就在于,Anthropic 能用 TPU 造出 Claude Opus 4.7 以及当今的 Mythos,可谷歌只拿出来了 Gemini 3.5 Flash。
还真即是橘生淮南则为橘开云世界杯官网,生于淮北则为枳。