LLM

Scaling Law依旧有效,但是...

2024-10-24

Scaling Law依旧有效,但是...

Cohere是我特别喜欢的AI创业公司。两个月前,20VC播客请来了这家公司的CEO——Aidan Gomez,双方围绕基础模型谈了许多,值得一看:

Aidan Gomez: What No One Understands About Foundation Models | E1191

我挑出我感兴趣、觉得受益的部分,分享给大家。

Scaling Law是否依然成立?

Aidan给出明确判断:Scaling Law依然成立,并且将在相当长的时期内保持有效。

但是,有一个很现实的问题是:对于大部分公司来说,今天模型能力并没有强大到值得去部署一个GPT-4级别的模型。模型的智能程度还撑不起这么高的成本。

所以在接下来很长一段时间的趋势是:通用模型和垂直模型并存。

先用通用大模型进行原型设计。等跑通之后,再把它蒸馏成一个专注且高效的垂直小模型。这是更加务实的做法。

模型厂商的出路在哪里?

第一条路,拼钱。

家底殷实的,一定要坚定Scaling Up,自建数据中心,不断提高算力投入,把模型变得越来越大,卷到底就是胜利。

囊中羞涩的,只能找条大腿,用自由换生存,才能继续留在牌桌上。

第二条路,拼数据和算法的创新。

数据创新的原因是,互联网上充斥着大量重复、错误的脏数据。如何降低它们的权重、提升高质量数据的训练权重,是提升模型能力的一大关键。

算法创新的原因是,今天的大模型还不具备解决问题的能力,不具备分析失败原因的能力。“慢思考”会成为通用大模型的必备能力。

除此之外,Aidan还提到了一个关键点:

阻碍大模型推理能力提升的,不是如何推理,而是缺乏可用于推理训练的数据。

虽然互联网数据体量庞大,但是绝大部分都是人类的推理结果,而非推理过程。

因为咱们人类并不会把思考的过程都清晰写出来,对吧?

光看结果、答案,大模型要反推过程可就太难了。这也是为什么包括Cohere、OpenAI、Anthropic在内的AI公司要自建推理训练数据集的原因。

怎么看OpenAI?

Aidan认为,首席科学家离开之后,OpenAI正在逐渐转型成为一家产品公司,而非一家以追求AGI为核心目标的公司。当然,这个决策在商业上是正确的,毕竟卷模型太烧钱了。既然是商业组织,就得考虑利润。

关于这一点,正好前两天我还发推嘲讽了来着,原话是:

OpenAI现在就跟黄磊一样,样样通、样样松。代码能力比不过Claude。canvas功能比不过Artifacts。搜索能力比不过Perplexity。GPTs可有可无。OpenAI似乎选错核心用户了,瞄准白领,结果现在弱得一逼。

AI未来机遇在哪里?

短期机遇:AI语音。

基于语音的交互重构可以带来令人震撼的用户体验,是AI最确定性的机会。

长期机遇:通用机器人。

因为大模型解决了机器人领域中最棘手的问题。未来五到十年,人类一定能造出通用机器人,而且可以很便宜。

最后,one more thing。

在访谈的开始,主持人Harry问到:为什么优秀科技公司的CEO大多是骨灰级的游戏玩家?

Aidan认为,电子游戏会在潜移默化中塑造玩家的韧性、不断尝试的勇气、以及乐观主义的心态——这对于创业来说算是必备素养、精神内核。

很多国家、地区的文化是那种“不成功便成仁”的风格,只给一次试错机会。这种文化是会天然抑制科技创新。但是在游戏中,你知道你可以失败,并且从每一次失败中总结经验、摸清游戏规则、发现窍门。

作为老玩家的我,突然感到好欣慰。