idea/question automated!

其实想来也是,用户搜索是为了得到一个问题的答案和解决方案,Google 已经把信息检索和推荐做到了极致,但用户仍然是跳转出去来寻找答案,那如果 Agent 可行,是否能在搜索的同时自动帮助用户提供解决方案呢?
比如 Perplexity 已经上线的电商搜索就是一个类似的尝试,与其我在各个平台搜索商品和评价,再跳转下单,为什么不能在一个平台上完成所有呢?
所以从这个角度来说,是否也可以说 Perplexity 最终就是个 Agent 公司,那这就解释了为什么它能有这么高的估值,可以说 Perplexity 很可能是下一代 AI 的最大入口和平台。
我们再把这个逻辑推而广之。
前微软 CEO 纳德拉曾经讲过一个点,他说比尔盖茨在他整个职业生涯中一直强调的一件事是,数字领域只有一个类别:信息管理。(我相信张一鸣可能也是同样的观点。)
那如果信息管理都最终指向一个行为 action,有没有可能 AI 时代最终就是信息管理+行动,而 Agent 就是一个完成体呢?
所以可能当下所有做信息类、辅助类的 AI 产品,尤其是 2B 或 2 Prosumer 的未来就都要往提供结果角度去思考和发展了。
好了,终于讲完了 Agent,最后我想讲一个我觉得最重要,却很少人提的方向,就是多模态。

大家这两年一直在讨论 AI Native,讨论是不是所有的 APP 都值得被重做一遍,目前为止似乎还没有答案,而我觉得这个答案就藏在多模态之中。
尤其在 2C 领域之中,如果 AI 只是产品的一个附属功能,比如在产品中加入 AI 总结、AI 提示、AI bot 等,产品的交互形态、界面都没有大的变化,那自然不可能出现 AI Native 的产品。
但在多模态视角之下,产品的组织形态和使用逻辑都是有可能发生彻底的变化的。
比如我们以 NotebookLM 为例,这个产品能够让用户把一篇文章变成一段两个 AI 的对话,并且用户还能随时插入对话之中进行互动或改变对话的走向。
这里用到了 AI 的理解能力、语言能力、也引入了多个 AI 人格,并且完成了跨模态的内容组织,还加入了用户的互动,可以想象这类产品的最终形态和使用行为肯定是现有产品无法承接的。
那如果我们把这个例子再泛化,用多模态中 Any to Any 的思路来推衍呢?即未来用户的输入可以是任何内容,不管是发一段话、拍一张图、还是上传一段视频,而 AI 可以把这类内容变成任何最适合的形式。比如我要讨论一个课题,AI 直接生成了一段辩论类视频综艺来帮我理解,我还可以作为其中一方的辩手随时加入,那这是否颠覆了现有的内容获取和人类接受教育的方式?
所以,我认为 Agent 的路径是相对有标准答案的,而 AI Native 的答案可能就藏在多模态之中,当然,我现在只能给个大概的方向和思路,并不能给出完美的 AI Native 的答案,这个也不该是我的工作,而是需要无数勇敢和天才的创业者和产品人来探索,在这里我只能给大家几个可以持续思考的建议。
1)虽然是 Any to Any,但从历史经验来看,是否视频类型内容的输出才是多模态的最终归宿?
2)人们未来的内容消费会不会都从被动接收信息,转变为被动接收与主动参与的结合?
3)Any to Any 仍然是生产力的变革,如何通过新的 AI、bot 和人的组织形式,真正变革生产关系?可能这个答案出现的那一天,就是下一个抖音将要出现的时候。
我知道很多人这两年不好过,做不做 AI 的都差不多,但我明确看到早入场的人,和坚定乐观的人也获得了回报,比如今天有一批高估值的公司基本都是 23 年初就勇敢进场的创业者,比如去年聊的比较多的人,今天也都遇到了各种机会,成为了各个大厂的 AI 负责人。
所以,我们还是要:
在巨大的不确定性面前保持乐观,
在脚踏实地赚钱的同时保有梦想。

https://mp.weixin.qq.com/s/wYlq_kN1xTKymPGUhLQZYA