大模型的极限
2022年11月的时候, chatgpt 3.5 推出, 当时那个轰动来的真的很快, 我马上试用了, 马上就玩得停不下来, 而且还一直有一种无法相信, 无法理解, 想快点知道是怎么做到的感觉.
一眨眼三年已经过去了, 三年期间, 很多的大模型问世, 但是 3.5 给我的那种轰动感觉, 再也没有碰到过.
大模型使用了大量的文字进行训练, 这些训练文字归根结底是人类写出来的. 人类使用语言进行思考, 也使用语言进行沟通和交流. 结合当今神经网络+注意力机制的架构, 这产生了两个问题.
两个问题
基于语言的思考速度会被制约
以往计算机进行计算, 是基于机器代码. 一些加减基础指令配上一些分支循环这种流程控制. 目前大模型的 “思考” 则是基于人类语言, 使得计算机的思考速度大幅降低. 如今, 使用经典最短路算法让计算机进行寻路, 会非常快, 相比之下如果用大模型进行寻找最短路, 则不仅缓慢无比, 而且结果莫名其妙.
思考除了基于语言还会基于别的东西
人类思考的时候脑子里似乎有一个声音在不停的说话, 描述这个思考过程. 一般简单的思考, 确实这个声音可以直接通过”因为….所以….考虑到…..所以还…”进行一步一步推理; 但是在进行特别深入的思考的时候, 总是感觉一个思路或者一个答案先形成, 然后再被脑中的声音说出来, 然后才会被语言组织好整个答案形成的过程, 这种顺序与现在的大模型有本质的区别.

那么神经网络和注意力机制未来能够在这两个问题上不断进步吗?
对于问题一, 如果量子计算机能够带来无法想象的计算效率进步, 那么第一点可以说是被解决了;
对于问题二, 如果人类特别深入思考时候背后的那个东西, 也能够被神经网络拟合, 那么也有希望解决, 但是我完全不知道那是什么东西, 看都看不见, 怎么拟合呢.
即便如此, 如果再加上一个 “十年” 的时间限制, 我觉得十年内无法解决这两个问题.
应用范围
假设上面的两个问题, 无法解决, 我们只能用现在的科技成果进行生产力改造, 产品改造.
那么应用在 AI 写代码上面, 就会有相应的两个问题:
- 写代码的速度有一个制约, 而且消耗很大. 这种消耗无法让人人都随时根据一个新主意, 打造自己的新app
- 复杂的软件工程无法维护
应用在 AI 驱动机器人上面, 就会有相应的两个问题:
- 机器人的行动速度有一个制约, 而且消耗很大, 无法产生大批量的机器人同时通过纯大模型思考来行动
- 机器人无法顿悟一件事情
所以只要避开这两个问题, 其他的事情上大模型还是大有可为的.