AI的革命性突破

AI的革命性突破

11 月, 周五, 2024
catkin
Inspire , 产业变革

《硅谷101》：Jonathan你对人工智能有自己的定义，能和大家分享一下吗？特别是为什么数据如此重要？

Jonathan：人工智能的历史从1950年代达特茅斯会议就开始了，包括agent（智能体）、自然语言处理、机器学习、神经网络等多个分支。但我定义的产业化人工智能是从2012年开始的，核心就是深度学习。

2012年之前，所有计算机科学包括传统人工智能都依赖人写算法，有句话叫“人工智能有多智能主要看有多少人”。就像我从小开始就写代码，所有事情都要靠程序员一行行敲代码。但2012年AlexNet出现后，把机器学习和神经网络结合成了深度学习，不再依赖手写代码，而是通过大量数据训练。

——这在很早就出现了。我之前说这是“东北乱炖”与鸡块炖粉条！

这形成了”AI三要素”：算法（AlexNet）、数据（李飞飞的ImageNet）和算力（吴恩达和GPU）。这三个要素结合产生了革命性突破，出现了一个“黑盒”模型，效果反而比人工编写的“白盒”模型更好，只是可解释性差一些。

到了2020年GPT-3出现后，第一次把人类积累的电子书、维基百科、Reddit、知乎等所有内容作为训练数据，效果超越了传统自然语言处理的所有成果。现在语言模型完全是数据定义的，这就是为什么在AI时代，你创业第一天就必须考虑数据。但关键是，“有用的数据”这个定义是动态的。比如Transformer出现前，很多数据都用不上，但现在它能处理这些语言数据，产生出超越传统自然语言处理的模型。

《硅谷101》：Keith你觉得什么样的数据是有用的？

Keith：要从人工智能的本质来看，它是要模拟人类行为。人在网上做的就是读和写两件事：读是获取信息，比如听我们的播客，看视频；写是基于信息采取行动，比如交易股票或者点击按钮。

但对机器来说，获取数据很困难，因为互联网本来是为人设计的。每个网站都有自己的护城河，需要API或者写爬虫脚本才能获取数据，这是最脏最累的活，没人愿意干，而且永远做不完。这导致很多做垂直领域的应用公司，它们的数据都差不多，没有特别之处。

大模型应用之困与异军突起的“埃森哲们” – 创业邦 (cyzone.cn)

AI的革命性突破

AI的革命性突破

发表回复 取消回复

发表回复取消回复