AI的革命性突破
《硅谷101》:Jonathan你对人工智能有自己的定义,能和大家分享一下吗?特别是为什么数据如此重要?
Jonathan:人工智能的历史从1950年代达特茅斯会议就开始了,包括agent(智能体)、自然语言处理、机器学习、神经网络等多个分支。但我定义的产业化人工智能是从2012年开始的,核心就是深度学习。
2012年之前,所有计算机科学包括传统人工智能都依赖人写算法,有句话叫“人工智能有多智能主要看有多少人”。就像我从小开始就写代码,所有事情都要靠程序员一行行敲代码。但2012年AlexNet出现后,把机器学习和神经网络结合成了深度学习,不再依赖手写代码,而是通过大量数据训练。
——这在很早就出现了。我之前说这是“东北乱炖”与鸡块炖粉条!
这形成了”AI三要素”:算法(AlexNet)、数据(李飞飞的ImageNet)和算力(吴恩达和GPU)。这三个要素结合产生了革命性突破,出现了一个“黑盒”模型,效果反而比人工编写的“白盒”模型更好,只是可解释性差一些。
到了2020年GPT-3出现后,第一次把人类积累的电子书、维基百科、Reddit、知乎等所有内容作为训练数据,效果超越了传统自然语言处理的所有成果。现在语言模型完全是数据定义的,这就是为什么在AI时代,你创业第一天就必须考虑数据。但关键是,“有用的数据”这个定义是动态的。比如Transformer出现前,很多数据都用不上,但现在它能处理这些语言数据,产生出超越传统自然语言处理的模型。
《硅谷101》:Keith你觉得什么样的数据是有用的?
Keith:要从人工智能的本质来看,它是要模拟人类行为。人在网上做的就是读和写两件事:读是获取信息,比如听我们的播客,看视频;写是基于信息采取行动,比如交易股票或者点击按钮。
但对机器来说,获取数据很困难,因为互联网本来是为人设计的。每个网站都有自己的护城河,需要API或者写爬虫脚本才能获取数据,这是最脏最累的活,没人愿意干,而且永远做不完。这导致很多做垂直领域的应用公司,它们的数据都差不多,没有特别之处。