大模型的极限

2022年11月的时候, chatgpt 3.5 推出, 当时那个轰动来的真的很快, 我马上试用了, 马上就玩得停不下来, 而且还一直有一种无法相信, 无法理解, 想快点知道是怎么做到的感觉.

一眨眼三年已经过去了, 三年期间, 很多的大模型问世, 但是 3.5 给我的那种轰动感觉, 再也没有碰到过.

大模型使用了大量的文字进行训练, 这些训练文字归根结底是人类写出来的. 人类使用语言进行思考, 也使用语言进行沟通和交流. 结合当今神经网络+注意力机制的架构, 这产生了两个问题.

两个问题

基于语言的思考速度会被制约

以往计算机进行计算, 是基于机器代码. 一些加减基础指令配上一些分支循环这种流程控制. 目前大模型的 “思考” 则是基于人类语言, 使得计算机的思考速度大幅降低. 如今, 使用经典最短路算法让计算机进行寻路, 会非常快, 相比之下如果用大模型进行寻找最短路, 则不仅缓慢无比, 而且结果莫名其妙.

思考除了基于语言还会基于别的东西

人类思考的时候脑子里似乎有一个声音在不停的说话, 描述这个思考过程. 一般简单的思考, 确实这个声音可以直接通过”因为….所以….考虑到…..所以还…”进行一步一步推理; 但是在进行特别深入的思考的时候, 总是感觉一个思路或者一个答案先形成, 然后再被脑中的声音说出来, 然后才会被语言组织好整个答案形成的过程, 这种顺序与现在的大模型有本质的区别.

那么神经网络和注意力机制未来能够在这两个问题上不断进步吗? 

对于问题一, 如果量子计算机能够带来无法想象的计算效率进步, 那么第一点可以说是被解决了; 

对于问题二, 如果人类特别深入思考时候背后的那个东西, 也能够被神经网络拟合, 那么也有希望解决, 但是我完全不知道那是什么东西, 看都看不见, 怎么拟合呢.

即便如此, 如果再加上一个 “十年” 的时间限制, 我觉得十年内无法解决这两个问题.

应用范围

假设上面的两个问题, 无法解决, 我们只能用现在的科技成果进行生产力改造, 产品改造.

那么应用在 AI 写代码上面, 就会有相应的两个问题:

  • 写代码的速度有一个制约, 而且消耗很大. 这种消耗无法让人人都随时根据一个新主意, 打造自己的新app
  • 复杂的软件工程无法维护

应用在 AI 驱动机器人上面, 就会有相应的两个问题:

  • 机器人的行动速度有一个制约, 而且消耗很大, 无法产生大批量的机器人同时通过纯大模型思考来行动
  • 机器人无法顿悟一件事情

所以只要避开这两个问题, 其他的事情上大模型还是大有可为的.


本文链接

回复