分享两篇李沐的文章,一篇是他创业一周年的反思,一篇是他在交大的演讲全文。这两篇我都看了两遍,很有启发。
一些启发
创业反思
- 自建 vs 租卡:李沐的经验是,租卡三年等于自建。而且成本除了GPU,存储也是大头,训练数据存储都是10PB起跳。
- 帮助大公司做定制模型,使得Boson收支打平。现阶段吃AI这个螃蟹,需要CEO非常有决断力,因为投入真的不低。
- 定制模型可以把成本做到调用API的十分之一,非常诱人。而且定制模型在垂直领域强,通用能力其实也不弱。
- 个体存在的意义需要自我定义。通过创造价值来自我实现,是一种途径。
交大演讲
- 一个生动的比喻:机器学习是老中医,深度学习特别是大语言模型像炼丹,数据是炼丹的材料,算力是炼丹的火力和设备,算法就是丹方了。
- 模型训练,硬件方面,带宽排第一位,最难也最重要。内存会制约模型的大小,现在已经接近上限,等待工艺突破。而算力本身会越来越便宜,摩尔定律继续发挥作用。
- 制约音乐模型的,不是技术,而是版权。
- 文科白领先被替代;之后是工科白领;最后是蓝领。
- 上一波顶级AI应用公司已经死差不多。下一波还未出现。
- 数据决定模型上限,算法决定模型下限。高质量、充足的数据可以让模型学习到更多有用的模式和特征。算法是模型学习和做出预测的方法。好的算法能更有效地从数据中提取信息,提高模型的基础性能。
- 预训练是工程问题,后训练是技术问题。
李沐是谁?
以下是Perplexity给的答案:
李沐是一位著名的人工智能专家和深度学习研究者,广泛被称为“沐神”。他于2004年进入上海交通大学计算机科学与工程系的ACM班学习,并在2008年获得学士学位。随后,他在香港科技大学担任研究助理,2011年加入百度,成为深度学习研究院的高级研发架构师。
李沐在2012年赴美国卡内基梅隆大学攻读博士学位,并于2017年获得博士学位,期间他曾在谷歌实习。博士毕业后,他加入亚马逊担任人工智能首席科学家,专注于机器学习和大规模分布式系统的研究。
他是深度学习框架MXNet的创始人之一,并在多个顶级学术会议上发表过论文,涵盖机器学习、操作系统等多个领域。李沐还积极参与AI普及工作,在B站开设了“跟李沐学AI”的频道,致力于向大众传播人工智能知识。
在2023年,李沐辞去了亚马逊的职务,开始创业,聚焦于大语言模型(LLM)的开发。他的新公司Boson AI专注于利用大语言模型提升产品和服务的效率。李沐的职业生涯和学术成就使他在科技界享有极高的声誉,尤其是在深度学习领域。
李沐在B站有大量分享,账号如下: 跟李沐学AI