DeepSeek连夜改页面，免费的AI用不长了

发布日期：2026-04-29 10:47 点击次数：133

摘要：

算力短缺，已经是 AI 赛道"房间里的大象"。

凤凰网科技出品

作者｜路春锋

编辑｜董雨晴

4 月 8 日凌晨，DeepSeek 悄悄上线了一种新的分层模式界面：在网页版 /App 中出现了"快速模式（Fast）"和"专家模式（Expert）"两个入口，同时还有一个带图标的"视觉模式（Vision）"选项正在灰度测试。

图｜Deepseek 网页版截图

新的功能分工十分明确：快速模式面向日常对话和低延迟响应；专家模式针对复杂推理和深度任务，可能触发更长推理时间但响应慢；而视觉模式则开启了图像输入等多模态能力，不过凤凰网科技检索发现，被灰度到视觉模式的人非常之少。

外界普遍认为，这是为即将发布的新一代 V4 模型做的功能和体验预热。但相比发新模型，当前的分级制度或许更值得关注，作为一种"按需调用算力"的调度机制，就是将简单任务交由低成本路径处理，仅在必要时启用高算力推理，从而减少无效 Token 消耗，实现整体成本的结构性下降。

大模型公司的算力焦虑

大概在一周前，Anthropic 宣布自 4 月 5 日起，旗下大模型 Claude 的订阅服务将不再覆盖包括龙虾在内的第三方集成工具。用户如想继续使用该模型，只能通过与订阅服务分开计费的按需付费方案，并为此支付额外费用。

背后的逻辑非常好理解，随着黄仁勋在 GTC 大会上高呼 Token 经济学。全球科技大厂一时间把 token 消耗量变成了考核标准，更有国内的互联网大厂拉了月度 token 消耗排行，唯 token 消耗论甚嚣尘上。

据 Anthropic 表述，订阅制的定价模型原本是基于"个人用户正常使用强度"设计的，而 OpenClaw 这类自动化代理工具的使用强度远超预期——有重度用户每月仅支付 200 美元订阅费，却消耗了价值 5000 美元的算力资源，给 Anthropic 带来了巨大的成本压力。

小米 AI 负责人、前 DeepSeek 核心成员罗福莉对这个理念进行了拆解，认为 Anthropic 终于走出了天坑。其在社交平台 X 上发布长文，认为全球算力供给已经跟不上 Agent 创造的 token 需求增速。真正的出路不是更便宜的 token，而是"更高 token 效率的 Agent 框架"叠加"更强大高效的模型"之间的协同进化。

据行业数据显示，截至 2026 年 3 月，中国 AI 大模型日均 Token 调用量已突破 140 万亿，较 2024 年初增长超千倍。

罗福莉算了一笔账：按 API 定价折算，这类框架的真实成本大概是订阅价格的数十倍。她觉得这一差距"不是缺口，而是天坑"。

更值得国内 AI 公司注意的是，Anthropic 在 4 月 7 日宣布，其年化收入（ARR）突破 300 亿美元，正式反超 OpenAI 的 250 亿美元。

从 2025 年底的 90 亿到如今 300 亿，其仅用三个多月就实现了 233% 的爆发式增长，即便如此，Anthropic 仍在算一笔精细的账。

在罗福莉看来，Anthropic 封杀"龙虾"的真正价值在于：让效率低下的成本真实可见，从而倒逼整个生态走向工程自律。短期阵痛不是坏事，它会推动框架开发者认真改进上下文管理、最大化 prompt 缓存命中率、削减无效 token 消耗。

发新模型眼下可能没那么重要

DeepSeek R1 最初的惊艳，原本也是架构的创新，极大的实现了 token 的节约。当时，低价 token 的源头虽然是 DeepSeek，但其本意从来不是为了价格战，只是后来者把这种创新完成了价格战游戏。

2025 年初的爆红，也让 DeepSeek 几度面临容量不足的窘迫，时常宕机。

在第一拨大规模用户涌入后，曾有 DeepSeek 内部人士告诉凤凰网科技，因为当时资源不够，所以用户看起来被限制了使用次数，后来内部通过优化方法，重新分配资源。

但这种内部架构的创新已经难以满足当前的 token 调用需求。

国金证券在研报中指出，算力供需正在发出关键信号——需求端以指数级膨胀，供给端却受限于芯片出口管制与成本约束，难以同步扩张。

免费模式，成了这场危机的加速器。大模型运营成本极高，免费模式让平台算力扩容始终滞后于用户增长。

在 2026 年开年以来，DeepSeek 已经上演了至少 7 次大规模服务中断。3 月 29 日晚至 30 日上午，平台再度突发全局崩溃，网页端与 APP 端同时无法使用，宕机时间持续约 12 小时，直至次日 9 时 13 分才恢复正常。

或许是压力之下，DeepSeek 在 4 月 8 日低调更新了对话界面，在输入框上方新增了"快速模式"和"专家模式"选项。在行业人士看来，分层设计既可以通过算力分流缓解峰值压力，也能为后续搭建付费体系、限额限流铺路。

不久前，OpenAI 宣布下线 Sora，将有限的算力资源重新聚焦于核心服务，与 DeepSeek 开启分层、Anthropic 的高峰限流措施共同揭示了一个现实：需求增速已远超基础设施的扩张能力。

AI 赛道的"房间里的大象"

从 DeepSeek 的免费模式难以为继，到 Anthropic 的封杀令，再到罗福莉的价格战警告，这些看似独立的事件共同指向同一个结构性矛盾：AI 赛道的 token 用量正在以指数级速度膨胀。

海外的 AI 数据中心大手笔抢购存储芯片，再向华尔街开出账单，犹如一场没有尽头的赌注游戏。

实际上，不止是芯片，电力危机也在叠加：AI 算力耗电占全社会用电量增速的 46%，远超整体 6.1% 的增长水平，电力弹性不足成为硬约束。

在这种背景下，行业正在经历一场从"免费烧钱换用户"到"算力精细化运营"的范式切换。阿里云、腾讯云早前已启动算力涨价，最高涨幅达 34%。但说起来是涨价，实际也只不过是把之前价格战时期的优惠给抹掉了，恢复了正常定价。

4 月 8 日，在智谱发布旗舰开源模型 GLM-5.1 之际，再度提价 10%，此前其已经进行过两次提价。

如果说过去两年，大模型行业的关键词是"规模"和"速度"，那么现在，关键词已经悄然变成了两个字：成本。

即便是像 OpenAI 和 Anthropic 这样的海外明星企业，目前都还处于高投入阶段，算力、人才、基础设施等等开支巨大。在持续依赖融资的同时，它们都必须回答一个现实问题：这门生意什么时候能自我造血？

于是，行业开始出现一个明显转向：当 AI 开始赚钱，第一步不是赚更多，而是少亏一点。

以 OpenAI 为代表的一类玩家，选择的是更激进的路线：产品快速迭代、能力优先、生态开放，同时通过持续融资维持扩张节奏；而以 Anthropic 为代表的另一类，则明显更克制，把重点放在成本结构、稳定性和企业服务上，通过工程优化来提升效率。

两者的差异，可以简单理解为：一个是"先做出来再说"，一个是"先算清楚再做"。

这种变化，对普通用户其实也会产生直接影响。

首先，API 价格未必会像很多人预期的那样持续大幅下降。虽然单位价格在降低，但成本控制的压力并没有消失，企业更可能通过优化结构，而不是无限降价来消化成本。

其次，免费额度和补贴可能逐步收紧。过去依赖"烧钱换增长"的阶段正在结束，当每一个 Token 都需要被精确计量时，慷慨的免费策略本身就变得不可持续。

再次，在体验层面，用户也可能感受到变化：模型回复会更克制、更精简；长文本、复杂推理或高频调用，可能被更严格地限制或分层定价。你看到的"更短回答"，背后往往不是模型变"懒"，而是系统在主动做成本优化。

从某种意义上说，Token 被省下来的那一刻，成本并没有消失，而是被重新分配——在模型厂商、企业客户与终端用户之间流动。

说到底，AI 正在完成一次从"实验品"到"商品"的转变。大模型从来不是纯技术问题，而是一门重资产生意。当增长神话退去，算账就成为最核心、最现实、也最无法回避的问题。

这，才是"抠 Token "背后真正的行业逻辑。

若您有相关线索，欢迎联络，一经采用，将支付相应报酬。

线索投稿邮箱：tech@ifeng.com

线索投稿微博：凤凰网科技

或直接在公众号后台联络。

上一篇：超市货架遭抢空，上万架次航班取消！美国22个州进入紧急状态，中领馆提醒

下一篇：没有了