胖模型，瘦应用

现象

之所以提出“胖模型，瘦应用”这个理论，原因在于过去一年，我开发了多个产品，并且对一些非常实用的通用领域进行了观察，发现有一个很有趣的现象。

它体现在两个层面：

1. 垂直 SaaS 功能的通用化吞噬

过去，一些简单的功能性 SaaS 产品核心壁垒在于特定的算法。

举个最直观的例子，图片高清化或数据分析。
在过去，如果你想做一个“让模糊老照片变清晰”的产品，你需要专门训练或微调一个超分模型；如果你想做一个自动化数据分析工具，你需要编写复杂的规则代码来清洗数据、选择图表。这些都是实打实的技术护城河。

但现在，这些目标正在被更加通用的 LLM 轻松覆盖。
你不需要专门的超分算法，现在的多模态大模型能直接理解“清晰度”的概念并重绘细节；你也不需要写死的数据分析逻辑，把 Excel 扔给模型，它能自动理解列名、生成代码并给出洞察。
甚至像 OCR（文字识别）这种曾经的硬核技术，现在也只是模型视觉能力的一个微小注脚。

当一个垂直领域的全部技术栈，变成了通用大模型的一个 feature，传统的无AI功能 SaaS 模式就面临着被降维打击的风险。

如果不相信的话可以谷歌查阅对应的搜索关键词，然后查看历年排名的前十网站。
仔细观察你会发现两个有趣的趋势：

AI 的全面接管：2025 年排名前十的站点，绝大部分的底层实现早已从传统算法换成了 AI 模型。
独立性的消亡：在 2019 年，”图片高清化”往往支撑起一个独立的工具站（独立域名）；但到了 2025 年，你看到的更多是 x xxxxx.ai/image-upscaler 或 xxxAI.co/image-upscaler 这样的路径。这意味着，这个曾经独立的垂直赛道，已经降级为了一个大型 AI 工具站的子功能页面。

曾经的主角，变成了配角；曾经的独立站点，变成了大平台的一个 Feature。

2. 模型进化的中间层塌陷

大模型的进化速度，正在以一种惊人的方式吞噬上一代应用的生存空间。

直到不久前，如果我们想让 AI 生成经过设计的 PPT 或复杂的统计图表，模型是做不到“直出”的。
通常的技术路径是：AI 先生成描述性的中间代码（比如 SVG 矢量图代码，或者 HTML/CSS），然后应用层再通过渲染引擎把这些代码转成用户能看的图。这时候，应用层还有价值，因为它承担了“翻译”和“渲染”的工作（PPT 我不清楚 Gamma 具体是如何实现的，但逻辑大抵如此）。

但现在，这种曲线救国的路径正在失效。
看看像 Nanobanna Pro 这一代的新模型，它们具备了惊人的端到端图像生成能力。你不再需要“语言模型 -> 代码 -> 渲染”这个繁琐的链条，而是直接 “提示词 -> 图片”。

这意味着，越来越多的功能正在被越来越强大的大模型底座所蚕食，甚至模型之间的迭代也越来越迅速。这就导致了从开发者角度看，你想要实现用户的功能，技术栈被压缩到了极致——只需要从后端调用 API 就能简单的实现。

这自然导向了一个关于未来的推想：胖模型，瘦应用。

借喻：胖协议与胖模型

这个理念最早来源于 Crypto 领域的一个著名 Thesis —— “Fat Protocol”（胖协议）。

在早期的互联网时代，协议层（如 TCP/IP, HTTP）是“瘦”的，它们只负责传输，没有什么价值捕获能力；而价值都被应用层（如 Google, Facebook）这些“胖”应用捕获了。但在 Crypto 的构想中，价值下沉到了协议层（Blockchain），应用层变得很薄。

虽然这篇文章不聊区块链，但这个架构上的映射在 AI 时代惊人地重现了，只是我们面对的是 “胖模型” (Fat Models)。

我想表达的是：未来的模型会越来越大，功能会越来越强；而应用层，则更多的体现在附着在大模型的基座上，衍生出各种不一样的形态。

所谓的“胖” (Fat Model)：
这里的“大”和“胖”，不仅仅指参数量，尤指多模态能力 (Multi-modality)。
正如 Ilya Sutskever 与黄仁勋在访谈中所提到的：文字类 LLM 并非终局，因为文字只是对世界的有损压缩。
真正的“胖模型”，是像人类一样能直接理解光子（视觉）、声波（听觉）甚至是物理规律的世界模型。当模型能直接“看懂”视频、直接“听懂”情绪时，原本应用层的工程化用来做格式转换或信息提取的代码（比如视频转文字、截帧分析）就变得毫无意义了，它拥有了极高的价值密度。
所谓的“瘦” (Thin App)：
指应用层的必然变薄。既然底座已经把最难的事情做了（比如图像识别、复杂推理），应用层就不再需要维护厚重的后端逻辑。应用变成了一层薄薄的前端皮肤。

当下市场的两种表达：Wrapper 与 Agent

既然应用层注定是瘦的，那么目前市面上所谓的套壳和 Agent 之争，在胖模型视角的注视下，其实是一个伪命题。

很多人会抬杠说：Agent 本质上不也是一种套壳吗？
这句话说得其实没问题。理论上，当下的所有 AI 产品，本质上都是胖模型外面套的一层薄薄的壳。

既然本质一样，为什么市场还要把它们分成两类？
从我的观察来看，这并非技术实现的壁垒，而是面对用户多样化需求时，两种不同的产品交付形态。

1. 针对确定性需求的程序化微应用 (Programmatic Wrapper)

这种形态通常依附于用户的搜索行为。用户想要吉卜力滤镜、PDF 转 Word 或者文字生成流程图。
为了拦截这些长尾但确定的需求，开发者会通过程序化 SEO 生成成千上万个子页面。
你点击进去会发现，这些页面虽然标题各异，但背后调用的可能是同一个模型接口，只是预设了不同的 Prompt 和流程来保证输出的一致性。
这里的壳，是被打碎成无数个小切片，散落在搜索结果里的。

2. 针对复杂需求的全能助手 (The Agent)

这种形态是为了满足那些单点工具无法覆盖的综合性需求。
举个例子，用户想对某个 YouTube 视频写简介，同时生成一张封面图，并发布成一个网页。这种需求太复杂，无法被一个简单的 SEO 关键词捕获。
这时候，就需要 Agent 形态登场。它利用工具调用、联网搜索和多模态生成能力，像一个全能管家一样把底层能力串联起来。

但这两种形态的殊途同归之处在于：
它们的终端客户画像是完全一致的——其实就是普通人。
这些用户不会写复杂的 Prompt，也不知道如何调度模型参数。他们要么是通过一次精准搜索找到一个微应用解决痛点，要么是跟一个全能 Agent 多轮对话来解决麻烦。

现在的市场，不过是在用不同的壳，去适配同一群人罢了。

成也模型，败也模型

仔细审视上述两种形态，你会发现它们都不是终局，原因何在？
核心在于：当下的模型差异化和快速迭代，直接导致了输出结果的不可控。

1. 针对套壳：模型并不是越新越好

举个我亲身经历的例子。两年前我开发一个 AI 写作应用，专门用来生成 SEO 友好的文章。当时用的是 Sonnet 3.5。
原生模型生成的文字非常机械化和古板，所以我花费了大量精力，写了很多复杂的系统提示来优化它的语调。

但问题发生在模型更新的那一天。尽管新模型理论上更强了，但它和我的老提示词是不适配的。这导致了当模型更新的时候，我的提示词要不断的微调来实现需求。
还有一个例子是 Google 的图片生成模型。你会惊讶地发现，老款的 nano-banana 在某些人物风格转换的效果上，竟然比新款的 pro 还要好。

2. 针对 Agent：模型“性格”的冲突

Agent 的问题更复杂。它的理想状态是根据需求自动选择不同的模型，取长补短。但现实是，A家、C家和 G家的模型各有侧重。

一个极端的例子是 Claude。因为它的对齐策略极其严苛（光伟正），如果你的 Agent 先让 Gemini 生成了一段比较奔放的文字，然后转交给 Claude 去润色，Claude 可能会直接拒绝执行，理由是“价值观冲突”。
感兴趣的朋友可以去某些酒馆 AI 的讨论区看看，这里不加赘述。

其次是哪怕 Agent 本身能通过在不同环节调用不同的模型来实现用户的各类文字、图片、视频需求。
但是 Agent 本身也不知道哪一个模型是最适合的。
所以你会看到，某个设计类 Agent 到了最后，还是老老实实地让用户自己选择模型。如果 Agent 最终还要用户自己选模型，那它的“智能”又体现在哪呢？

预测：反虚无主义与未来的形态

当我们在讨论未来的时候，我们实际上是在讨论市场的未来形态，而不是技术的终局。

过去市场上一直充斥着一种虚无主义的论调：“既然模型这么厉害，那这些应用大模型公司迟早都会自己做掉，初创公司还有什么机会？”
我个人对这种形式化的评论是嗤之以鼻的。这听起来就像是在说：“既然未来一定是自动驾驶了，那我现在就不要学开车也不用买车了，躺着等到那一天就行了。”

现实恰恰相反。作为一个项目的开发者，我感到庆幸。如果你现在去 Google 搜索诸如 “AI xxxx generator” 这样的关键词，你会发现排在前面的，依然有很多是小团队甚至独立开发者构建的 App。他们的流量惊人，收入也不低。

为什么？

Vibe Coding 与基建的胜利
这种局面并非空穴来风，它得益于 AI Coding 能力的普及（Cursor, Windsurf）和成熟云基础设施（Vercel, Supabase）的完美耦合。正是因为有了这些基建，小团队才能以极低的成本、极快的速度去实现产品的开发和迭代。ai 的到来并不是空穴来风，没有这些云服务基础设施的支持，就没有现在的百花齐放。

胖模型并非一块铁板
如果你仔细观察，会发现所谓的“胖模型”并未形成垄断的单体，反而是割裂的。
模型与模型之间存在显著的差异化（Google 的、Anthropic 的、OpenAI 的、开源社区的）。这种割裂本身就创造了巨大的应用空间。应用层的价值之一，就是去弥合、路由、或者利用这些差异化，为用户提供最优解。

终局预测：交互的隐形 (Interface Dissolution)
当然，往更远看，随着模型多模态能力的提升，图形用户界面（GUI）将进一步退化。
既然模型能直接理解屏幕内容、直接听懂语音指令，那么传统 App 里那些复杂的菜单、按钮、表单都将变得多余。
未来的瘦应用，可能只是一层极薄的交互薄膜。它可能没有界面，只是挂在后台的一个守护进程，或者 AR 眼镜上的一行代码。它只在用户需要的时候出现，捕捉意图，交付结果，然后消失。

结语：让用户忘记模型

最后，我想聊聊关于产品设计的思考。

过去我在构建产品的过程中发现一个痛点：其实大多数用户是根本不会写提示词的。
让用户去学习写复杂的 Prompt，甚至让他们去不同平台复制粘贴提示词，这本身就是一种巨大的交互损耗。但依然有这么多人愿意为了 AI 产品付费，说明需求是强烈的，只是现在的交付形式（那个干瘪的对话框）还不够好。

这也解释了为什么我们会有那两种形态：
套壳产品通过预设不同的提示词，来帮用户省去思考的步骤；
Agent 产品让用户通过多轮对话来被动厘清需求，从而在后台生成定制化的提示词。
其实它们本质上都是为了解决这最后一公里的问题，即：用户 – 模型 – 结果 之间的损耗。但不得不承认，目前的这些尝试并没有真正彻底解决从用户意图到结果之间的摩擦。

这就是胖模型时代，应用存在的终极意义——屏蔽模型的存在感。

在胖模型，瘦应用的架构下，模型本身其实是不重要的。
好的产品设计，应该让用户对模型本身无感知。当用户使用你的产品时，他感知的应该是你的品牌，是你解决问题的流畅度，而不是底层的 GPT-5 还是 Claude。如果你只是在卖模型的能力，用户随时会为了更便宜的模型背叛你；但如果你在卖某种独有的体验，用户才会对品牌产生忠诚。

虽然我们预测的终局是无感的交互和全能的多模态，但在通往那个终局的过程中，依然满地坑洼。
而这正是我们的机会。哪怕模型再胖，它也跨不过从能力到好用的那一公里。我们需要用看起来不那么性感的工程化手段，去解决当下的问题，去填补模型和用户之间的鸿沟。

接受模型的胖，做好应用的瘦，但绝不要忘记：永远不要让用户去思考模型。