胖模型,瘦应用

现象

之所以提出“胖模型,瘦应用”这个理论,原因在于过去一年,我开发了多个产品,并且对一些非常实用的通用领域进行了观察,发现有一个很有趣的现象。

它体现在两个层面:

1. 垂直 SaaS 功能的通用化吞噬

过去,一些简单的功能性 SaaS 产品核心壁垒在于特定的算法。

举个最直观的例子,图片高清化 或 数据分析。
在过去,如果你想做一个“让模糊老照片变清晰”的产品,你需要专门训练或微调一个超分模型;如果你想做一个自动化数据分析工具,你需要编写复杂的规则代码来清洗数据、选择图表。这些都是实打实的技术护城河。

但现在,这些目标正在被更加通用的 LLM 轻松覆盖。
你不需要专门的超分算法,现在的多模态大模型能直接理解“清晰度”的概念并重绘细节;你也不需要写死的数据分析逻辑,把 Excel 扔给模型,它能自动理解列名、生成代码并给出洞察。
甚至像 OCR(文字识别)这种曾经的硬核技术,现在也只是模型视觉能力的一个微小注脚。

当一个垂直领域的全部技术栈,变成了通用大模型的一个 feature,传统的无AI功能 SaaS 模式就面临着被降维打击的风险。


如果不相信的话可以谷歌查阅对应的搜索关键词,然后查看历年排名的前十网站。
仔细观察你会发现两个有趣的趋势:

  1. AI 的全面接管:2025 年排名前十的站点,绝大部分的底层实现早已从传统算法换成了 AI 模型。
  2. 独立性的消亡:在 2019 年,”图片高清化”往往支撑起一个独立的工具站(独立域名);但到了 2025 年,你看到的更多是 x xxxxx.ai/image-upscalerxxxAI.co/image-upscaler 这样的路径。这意味着,这个曾经独立的垂直赛道,已经降级为了一个大型 AI 工具站的子功能页面

曾经的主角,变成了配角;曾经的独立站点,变成了大平台的一个 Feature。

2. 模型进化的中间层塌陷

大模型的进化速度,正在以一种惊人的方式吞噬上一代应用的生存空间。

直到不久前,如果我们想让 AI 生成经过设计的 PPT 或复杂的统计图表,模型是做不到“直出”的。
通常的技术路径是:AI 先生成描述性的中间代码(比如 SVG 矢量图代码,或者 HTML/CSS),然后应用层再通过渲染引擎把这些代码转成用户能看的图。这时候,应用层还有价值,因为它承担了“翻译”和“渲染”的工作(PPT 我不清楚 Gamma 具体是如何实现的,但逻辑大抵如此)。

但现在,这种曲线救国的路径正在失效。
看看像 Nanobanna Pro 这一代的新模型,它们具备了惊人的端到端图像生成能力。你不再需要“语言模型 -> 代码 -> 渲染”这个繁琐的链条,而是直接 “提示词 -> 图片”。

这意味着,越来越多的功能正在被越来越强大的大模型底座所蚕食,甚至模型之间的迭代也越来越迅速。这就导致了从开发者角度看,你想要实现用户的功能,技术栈被压缩到了极致——只需要从后端调用 API 就能简单的实现。

这自然导向了一个关于未来的推想:胖模型,瘦应用

借喻:胖协议与胖模型

这个理念最早来源于 Crypto 领域的一个著名 Thesis —— “Fat Protocol”(胖协议)

在早期的互联网时代,协议层(如 TCP/IP, HTTP)是“瘦”的,它们只负责传输,没有什么价值捕获能力;而价值都被应用层(如 Google, Facebook)这些“胖”应用捕获了。但在 Crypto 的构想中,价值下沉到了协议层(Blockchain),应用层变得很薄。

虽然这篇文章不聊区块链,但这个架构上的映射在 AI 时代惊人地重现了,只是我们面对的是 “胖模型” (Fat Models)

我想表达的是:未来的模型会越来越大,功能会越来越强;而应用层,则更多的体现在附着在大模型的基座上,衍生出各种不一样的形态。

  • 所谓的“胖” (Fat Model)
    这里的“大”和“胖”,不仅仅指参数量,尤指多模态能力 (Multi-modality)
    正如 Ilya Sutskever 与黄仁勋在访谈中所提到的:文字类 LLM 并非终局,因为文字只是对世界的有损压缩。
    真正的“胖模型”,是像人类一样能直接理解光子(视觉)、声波(听觉)甚至是物理规律的世界模型。当模型能直接“看懂”视频、直接“听懂”情绪时,原本应用层的工程化用来做格式转换或信息提取的代码(比如视频转文字、截帧分析)就变得毫无意义了,它拥有了极高的价值密度。
  • 所谓的“瘦” (Thin App)
    指应用层的必然变薄。既然底座已经把最难的事情做了(比如图像识别、复杂推理),应用层就不再需要维护厚重的后端逻辑。应用变成了一层薄薄的前端皮肤。

当下市场的两种表达:Wrapper 与 Agent

既然应用层注定是瘦的,那么目前市面上所谓的 套壳 和 Agent 之争,在胖模型视角的注视下,其实是一个伪命题。

很多人会抬杠说:Agent 本质上不也是一种套壳吗?
这句话说得其实没问题。理论上,当下的所有 AI 产品,本质上都是胖模型外面套的一层薄薄的壳。

既然本质一样,为什么市场还要把它们分成两类?
从我的观察来看,这并非技术实现的壁垒,而是面对用户多样化需求时,两种不同的产品交付形态。

1. 针对确定性需求的 程序化微应用 (Programmatic Wrapper)

这种形态通常依附于用户的搜索行为。用户想要 吉卜力滤镜、PDF 转 Word 或者 文字生成流程图。
为了拦截这些长尾但确定的需求,开发者会通过程序化 SEO 生成成千上万个子页面。
你点击进去会发现,这些页面虽然标题各异,但背后调用的可能是同一个模型接口,只是预设了不同的 Prompt 和流程来保证输出的一致性。
这里的壳,是被打碎成无数个小切片,散落在搜索结果里的。

2. 针对复杂需求的 全能助手 (The Agent)

这种形态是为了满足那些单点工具无法覆盖的综合性需求。
举个例子,用户想 对某个 YouTube 视频写简介,同时生成一张封面图,并发布成一个网页。这种需求太复杂,无法被一个简单的 SEO 关键词捕获。
这时候,就需要 Agent 形态登场。它利用工具调用、联网搜索和多模态生成能力,像一个全能管家一样把底层能力串联起来。

但这两种形态的殊途同归之处在于:
它们的终端客户画像是完全一致的——其实就是普通人。
这些用户不会写复杂的 Prompt,也不知道如何调度模型参数。他们要么是通过一次精准搜索找到一个 微应用 解决痛点,要么是跟一个 全能 Agent 多轮对话来解决麻烦。

现在的市场,不过是在用不同的壳,去适配同一群人罢了。

成也模型,败也模型

仔细审视上述两种形态,你会发现它们都不是终局,原因何在?
核心在于:当下的模型差异化和快速迭代,直接导致了输出结果的不可控。

1. 针对套壳:模型并不是越新越好

举个我亲身经历的例子。两年前我开发一个 AI 写作应用,专门用来生成 SEO 友好的文章。当时用的是 Sonnet 3.5。
原生模型生成的文字非常机械化和古板,所以我花费了大量精力,写了很多复杂的系统提示来优化它的语调。

但问题发生在模型更新的那一天。尽管新模型理论上更强了,但它和我的老提示词是不适配的。这导致了当模型更新的时候,我的提示词要不断的微调来实现需求。
还有一个例子是 Google 的图片生成模型。你会惊讶地发现,老款的 nano-banana 在某些人物风格转换的效果上,竟然比新款的 pro 还要好。

2. 针对 Agent:模型“性格”的冲突

Agent 的问题更复杂。它的理想状态是根据需求自动选择不同的模型,取长补短。但现实是,A家、C家和 G家的模型各有侧重。

一个极端的例子是 Claude。因为它的对齐策略极其严苛(光伟正),如果你的 Agent 先让 Gemini 生成了一段比较奔放的文字,然后转交给 Claude 去润色,Claude 可能会直接拒绝执行,理由是“价值观冲突”。
感兴趣的朋友可以去某些酒馆 AI 的讨论区看看,这里不加赘述。

其次是哪怕 Agent 本身能通过在不同环节调用不同的模型来实现用户的各类文字、图片、视频需求。
但是 Agent 本身也不知道哪一个模型是最适合的。
所以你会看到,某个设计类 Agent 到了最后,还是老老实实地让用户自己选择模型。如果 Agent 最终还要用户自己选模型,那它的“智能”又体现在哪呢?

预测:反虚无主义与未来的形态

当我们在讨论未来的时候,我们实际上是在讨论市场的未来形态,而不是技术的终局。

过去市场上一直充斥着一种虚无主义的论调:“既然模型这么厉害,那这些应用大模型公司迟早都会自己做掉,初创公司还有什么机会?”
我个人对这种形式化的评论是嗤之以鼻的。这听起来就像是在说:“既然未来一定是自动驾驶了,那我现在就不要学开车也不用买车了,躺着等到那一天就行了。”

现实恰恰相反。作为一个项目的开发者,我感到庆幸。如果你现在去 Google 搜索诸如 “AI xxxx generator” 这样的关键词,你会发现排在前面的,依然有很多是小团队甚至独立开发者构建的 App。他们的流量惊人,收入也不低。

为什么?

Vibe Coding 与基建的胜利
这种局面并非空穴来风,它得益于 AI Coding 能力的普及(Cursor, Windsurf)和成熟云基础设施(Vercel, Supabase)的完美耦合。正是因为有了这些基建,小团队才能以极低的成本、极快的速度去实现产品的开发和迭代。ai 的到来并不是空穴来风,没有这些云服务基础设施的支持,就没有现在的百花齐放。

胖模型并非一块铁板
如果你仔细观察,会发现所谓的“胖模型”并未形成垄断的单体,反而是割裂的。
模型与模型之间存在显著的差异化(Google 的、Anthropic 的、OpenAI 的、开源社区的)。这种割裂本身就创造了巨大的应用空间。应用层的价值之一,就是去弥合、路由、或者利用这些差异化,为用户提供最优解。

终局预测:交互的隐形 (Interface Dissolution)
当然,往更远看,随着模型多模态能力的提升,图形用户界面(GUI)将进一步退化。
既然模型能直接理解屏幕内容、直接听懂语音指令,那么传统 App 里那些复杂的菜单、按钮、表单都将变得多余。
未来的瘦应用,可能只是一层极薄的交互薄膜。它可能没有界面,只是挂在后台的一个守护进程,或者 AR 眼镜上的一行代码。它只在用户需要的时候出现,捕捉意图,交付结果,然后消失。

结语:让用户忘记模型

最后,我想聊聊关于产品设计的思考。

过去我在构建产品的过程中发现一个痛点:其实大多数用户是根本不会写提示词的。
让用户去学习写复杂的 Prompt,甚至让他们去不同平台复制粘贴提示词,这本身就是一种巨大的交互损耗。但依然有这么多人愿意为了 AI 产品付费,说明需求是强烈的,只是现在的交付形式(那个干瘪的对话框)还不够好。

这也解释了为什么我们会有那两种形态:
套壳产品通过预设不同的提示词,来帮用户省去思考的步骤;
Agent 产品让用户通过多轮对话来被动厘清需求,从而在后台生成定制化的提示词。
其实它们本质上都是为了解决这最后一公里的问题,即:用户 – 模型 – 结果 之间的损耗。但不得不承认,目前的这些尝试并没有真正彻底解决从用户意图到结果之间的摩擦。

这就是胖模型时代,应用存在的终极意义——屏蔽模型的存在感

在胖模型,瘦应用的架构下,模型本身其实是不重要的。
好的产品设计,应该让用户对模型本身无感知。当用户使用你的产品时,他感知的应该是你的品牌,是你解决问题的流畅度,而不是底层的 GPT-5 还是 Claude。如果你只是在卖模型的能力,用户随时会为了更便宜的模型背叛你;但如果你在卖某种独有的体验,用户才会对品牌产生忠诚。

虽然我们预测的终局是无感的交互和全能的多模态,但在通往那个终局的过程中,依然满地坑洼。
而这正是我们的机会。哪怕模型再胖,它也跨不过从能力到好用的那一公里。我们需要用看起来不那么性感的工程化手段,去解决当下的问题,去填补模型和用户之间的鸿沟。

接受模型的胖,做好应用的瘦,但绝不要忘记:永远不要让用户去思考模型。