人们会说这是幻觉,也有人会说这是真实的。毫无疑问,自从2020年chatgpt出现后的一年内,AI的发展速度是惊人的。可在2024年后,我们能明显的感觉到AI的发展速度在放缓。一方面新的模型推出的速度在放缓,另一方面,新的模型在效果上并没有显著的提升。这也是为什么从今年下半年开始,有关openai撞上墙的讨论越来越多。
我们会看到各种个样的观点例如:
“尽管现在openai还没有撞上墙,但是从AI的发展速度来看,撞墙是迟早的事情。”
“AI的发展速度放缓,是scaling law实效了,以至于无法继续扩张。”
或者sam自己本人说的:“墙不存在”
尽管如此,对于一个频繁使用ai 的人来说,我的确能肉眼感受到新的模型在效果上并没有显著的提升,以及整体使用AI的成本在增加。
从我的观点和角度来看,scaling law 的原理并没有失效,但墙也是真实存在的。这一次open ai的减速,可能会给其他的AI公司带来新的机会,并且在未来的某个时间点反超openai。下面是我的看法和推测。
Scaling law
关于scaling law 的原理最早出现在一篇论文”Scaling Laws for Neural Language Models” by Kaplan et al.

随着模型规模、数据集规模和训练时使用的计算量增加,语言模型性能会平稳提升。为了获得最佳性能,这三个因素必须同时进行扩展。当不受其他两个因素瓶颈限制时,实测性能与每个单独因素之间存在幂律关系。
其实从这张图上面很好理解,即一个大语言模型的性能,会随着模型规模、数据集规模和训练时使用的计算量增加而提升。这也是为什么这么多模型公司描述的agi 的未来,因为理论上只要有足有的数据集和计算资源,就能训练出超过人类的通用人工智能。
这也是为什么自从open ai 推出chatgpt后,其他公司也开始融资推出了自己的大模型,因为我们从gpt2 – gpt 3 的模型效果提升,看到了scaling law 的威力。
那么对于资本市场和创业者来看,这相当的简单,因为openai已经示范了这样做是有效果的,数据集的门槛并不是问题,大部分我们已知的大模型都是从互联网上公开数据训练的,而算力则的问题则需要通过购买显卡来解决。由此可见,open ai 实际上给许多的企业进行了一个示范效果。像中国的一句老话,其他的企业只需要摸着石头过河,就能获得不错的效果。
hit the wall 不代表 scaling law 失效
如果我们将过去两年之内的头部大模型发展速度和近6个月内的发展进行对比时,就会发现整体的大模型性能和效果是放缓的。
包括我们从各种科技媒体的报道中都能看到这样的表述

https://www.businessinsider.com/openai-orion-model-scaling-law-silicon-valley-chatgpt-2024-11
但是这里面的并不是scailing law 失效了,恰恰相反证明的是其有效性。很显然是数据集和本身的算力达到了瓶颈期。
数据集
llya 在最近的 NeurIPS 2024 也提到过类似的观点

他将数据视为ai的石油,并且认为现有的数据并没有呈现指数级的成长。
算力
那我们的算力呢?是否也达到了瓶颈期?
马斯克最新在x上提到的超级计算中心可能证明了,当前各个大模型公司的算力并未到达最巅峰的性能。
最近的all in 播客也证实了这一点“伊隆马斯克在构建x ai 的时候想出了一种非常不同的构建数据中心的方法,能够做到将超过1000,000个gpus coherent。而且是全世界第一个这么实现,谷歌和meta的工程师说做不到。”
这里预示着几种可能
1、当下大模型增长放缓的现象会给一些新的开源大模型公司追上open ai的机会,大模型公司的护城河的并没有我们想象那么深(或者根本不存在)
2、以x ai 为首的新一代大模型公司,通过工程和结构上的优化从而在未来超越头部大模型的性能
3、如同那个论文《柏拉图表征假说》提到的,可能未来所有的大模型都趋近于一个世界大模型,而只有头部垄断的企业获胜并且诞生超级agi(可怕的未来,我会在下一篇文章中详细描述)
牛顿望远镜
真正的瓶颈可能不是定律 而是工程上的
这让我想起了早期伽利略时代的天文望远镜,当时的人们发现,制造更长的望远镜可以使他们看得更远,最终建造出了超过 40 米长的望远镜。

直到牛顿利用光学设计的基本原理,成功地将望远镜筒缩短许多倍,从而使望远镜的性能大大提高。

牛顿所做的并非是改变了望远镜的scailing law,而是利用了光线反射的原理,从而使望远镜的性能大大提高并且缩小了体积。
突破”墙”往往不在于简单地扩大规模,而在于架构创新。对AI来说,下一个突破可能同样需要在基础架构上的革命性创新,而不是简单地堆砌更多算力。
未来的突破口可能在于:
– 新型神经网络架构
– 更高效的训练方法
– 全新的计算范式
正如牛顿望远镜开启了天文学新纪元,AI领域的下一个革命性创新也可能已在孕育之中。