比Sora更大的AI突破口来了！

发布时间：2024/03/18 浏览次数：

　　比Sora更大的AI突破口来了！内容来源： 3月6日，王煜全公开直播。责编金木研排版五月第 8113 篇深度好文：8575字 14分钟阅读

　　在3月6日的直播中，王煜全告诉大家：今天的人工智能还在动物智能阶段，通用智能非常遥远，中国人如果能抓住这轮变革的规律，依然有机会实现反超，更有希望孕育出下一个20年的超级巨头。

　　最近，人工智能有了新进展，最值得注意的是OpenAI推出的AI视频生成模型Sora。以前的AI生成视频最长只有4秒钟，但现在Sora可以生成一分钟的视频，而且生成的视频和真实世界非常相似。

　　有些科学家和人工智能专家都认为，人工智能已经掌握了世界物理模型，也就是说能够模拟真实世界，理解各种物理法则，拥有和人类一样的智能。

　　但我认为，AI离真正的理解物理世界还差得远。比如一个考古现场挖出沙滩椅的视频，Sora生成了这个现实中不可能出现的情况，但是椅子从沙子里掏出来的时候会变形，还会漂浮，这明显不是真实的情况。

　　一部分和动物一样，我们就简称动物智能。就像家里的狗也知道趋利避害，它也知道如何绕过障碍物奔跑而不摔倒，这都是智能的表现。

　　这种动物智能背后其实是记忆预测模型，也就是对周围环境产生记忆，并对未来的行为做出预测，以便更好地与环境互动。

　　人类也是如此，比如大家关注环境往往看那些变化的和意想不到的事物，平时走路没有感觉，如果一脚踏空，我们会立刻去找原因，这就是记忆预测模型发现变化开始起作用。

　　我的判断是Sora出现意味着AI已经到了动物智能水平，但是离人类还有很远的距离，因为人类理解世界的方式是需要理性的。

　　我们需要用语言来交流，我们需要讨论并找出对同样事物的共识，比如牛顿定律、爱因斯坦的相对论都不是记忆预测能够实现的，而是人类相互交流、积累的成就。理性，能让我们总结出一种普遍规律。

　　观察SORA之后就很清楚，我们现在还没有到通用人工智能的阶段，还处在单项智能的阶段。例如，现在的视觉智能Sora，它只达到了动物水平，因为它没有理性，没有物理世界模型，所以有些错误它无法纠正。

　　首先要明确一下，智能并不一定意味着掌握物理世界的法则，就像各种动物，不明白物理、化学依然可以在这世界里活得很好。

　　很多人不知道牛顿力学，甚至有人不相信地球是圆的，但这并不影响生活。所以，我们要理解真实的世界需要的是理性，而不仅仅是智能。

　　人类的智能发展到今天，尤其是语言智能发展到今天，实际上是在动物智能之上叠加了大量的理性成果，推动了人类的原始智能发展到今天的水平。

　　智能本身可以不理性，而我们的大模型的训练机制就是大量数据输入，进行训练，这种情况下它会形成智能，但不形成理性。这导致我们在与大模型交互时，会产生一些不太理性的错误。

　　Sora模型也是一样，它是智能的，但它不是理性的，而且它是单项的智能，只是ChatGPT训练出来的是语言智能，Sora是视觉智能，未来可能还有更多的智能，但它们都不是理性的。

　　著名的AI科学家Yann Lecun提出了一个世界模型，希望模仿人类大脑构建起一个多模型协作的机制。许多人也认为，现在AI在某个方面复制了人脑的功能，就已经产生了智能，那么，如果在多个方面复制了人脑，是否就会产生通用人工智能？

　　实际上并非如此，这中间有一个巨大的鸿沟需要跨越，如何将语言、视觉不同的智能泛化成为通用的过程，不是几个模型组合就能解决的。

　　真正要实现通用人工智能，还是需要参考人类的智能进化过程，不只是人工智能的单项智能变强，更需要形成多个智能体交互、积累的环境，也就是说需要智能社会。

　　这就是为什么我更关注AI Agents的原因。让多个智能体学会交互，每个智能体在交互的时候都有自己的个体经验，它会产生智能，但是个体经验这个智能到底对不对，可以在多个智能体的交互验证中积累。

　　当然，人工智能如何交互是我们很难想象的，它可能使用人类已经掌握的语言进行交互，也可能会产生机器与机器之间使用机器语言进行交互。一旦AI可以社会化，可以互相交互，而且可以互相进步，这就会产生通用能力。

　　这背后其实是人类发展的历程，我们今天觉得自己的智能水平很高，依赖的并不是个体进化，而是整个群体的协同进化。也就是说，你的智能的形成和你周围的人是有关系的，如果没有周围的人，你的进化水平就不会提高。

　　我认为人工智能可能遵循的是同样的路径，再往下走，要形成通用智能很可能也需要走上群体智能的道路。

　　ChatGPT出来的时候，我们以为大语言模型已经是AI的一个终点，当时OpenAI已经展现出同一个模型处理文字、图片的能力，通过数据预处理实现图片和语言数据统一化，也就是所谓的token化。

　　现在Sora的进步，更重要的地方是在token化上再进一步，提出了patch的处理方法。Patch具体是什么我就不详细展开说了，简单说就是把一段视频看作大方块，把它切小变成一个个小包，也就是Pacth交给AI学习，最后结合diffusion model 生成视频。

　　底层还是大语言模型，但是工程方法有了很大的变化，这意味着不同类型的数据预处理方式有了很大的差别，这就影响了智能形成的方式。

　　一方面，我们的大脑和大模型很像，它有一个统一的机制，人类的新皮质有六层，和卷积神经网络上百层相比简单多了。但是用更简单的东西高效地处理事情，实际上是更高级的体现。所以，我们大脑的运算能力实际比现代的人工智能要高级。

　　另一方面，大脑里是有区分的，有视觉区、听觉区。我们的大脑看似用一个大型模型来处理所有信息，处理视觉、听觉、嗅觉、味觉和触觉，其实所有身体的感知信息都从枕骨大孔进入大脑，大脑处理的只是电信号。

　　这给我们带来一个重要的启示：要形成一个完整的认知，不仅需要数据采集，而且还需要预处理，每种感觉的预处理可能都是不一样的。

　　这款眼镜利用体外摄像头收集外部的视觉信号，然后用处理器在体外进行处理，将视觉信号切成一堆小格，形成一幅图像。这个图像是由电画出的，电强度和光强度对应，通过刺激盲人的舌片帮助形成外部世界的三维感知。

　　这就意味着我们在体外完成了外部视觉信号的收集、处理和转换，就像patch一样把数据重新打包，再交给人的大脑感知处理。

　　回到人工智能上，随着单项智能化加速，未来处理听觉、嗅觉的智能模型都会出现。在智能化过程中，甚至可以反过来推动人类智能的进步。比如，我们的听觉是如何形成的，听觉数据模式的理解都会随之进步。

　　现在我认为反超的可能已经出现，原因是大模型的进展并不快，而且差别不大。只要我们跟上别人的大模型处理方式，并在数据预处理上下功夫，我们就有可能形成更强的智能。

　　我们反超的机会并不在大模型上，而在数据预处理上。我们过去对数据预处理的重要性严重低估了，因为只有足够好的数据预处理和大模型结合，才能产生真正的智能。

　　人工智能的应用化，现在已经到了一个转折点，大模型通过专有数据训练依然能形成更强的智能，不是一个大模型解决所有的问题。

　　这意味着各行各业都能形成智能，甚至我收集的公司管理数据、市场营销数据，将来可能形成管理智能、营销智能。

　　我认为营销智能可能很快就会实现。原因很简单，过去我们谈论的是流量经济和私域流量。公域流量就像河流，你只要有网，就可以捞鱼，没有其他成本。但现在不同了，无论你使用GPT还是其他大语言模型，每个模型的使用都有费用。

　　这就是我说的新一代的线膛枪，以前用滑膛枪，虽然打得不准，好在成本也不高，现在进化到线膛枪，技术性能提升了，每一枪也都要精准，因为是有成本的。

　　我一人只能对准一个目标，一人能管理多少枪炮？只有一支。那怎么办？我们需要转变，变成营销智能，让一个智能体能管理一百万支枪炮，瞄准一百万个目标。

　　不久前，黄仁勋在一个采访说，通用人工智能需要一个更清晰的定义，现在的定义比较模糊，但是你只要能提出一个明确的问题，5年内AI都能解决。

　　很多人误以为黄仁勋说通用人工智能时代将在5年内来临。其实，他是在讲专有人工智能解决细分问题，即使再难的问题，5年内也能解决。

　　简单来说，现在的人工智能并非通用智能，但这并不妨碍我们使用它。人类虽然表面上拥有通用智能，但实际上和人工智能是一样的。我有通用性，并不意味着我可以向任何方向发展。

　　比如，乔丹是NBA三届总冠军，他的运动天赋非常强，也不是通用的运动天赋。在他职业生涯中就试图去打棒球，但没有成功。后来他回到篮球场，再次拿到了3届总冠军。

　　这里我想引用OpenAI的CEO Sam Altman的话，他说当前的人工智能已经是你中等水平的同事，虽然他不是最优秀的同事，但他已经不再是新手。

　　英国在非洲修铁路时，他们要实现智能化调度和物流跟踪。但非洲许多地方的人没有文化，他们怎么办？

　　在许多关键位置设立岗位，岗位的人无需文化知识，只需在火车过来的时候拿起电话说火车过去，就这样对整个系统进行监测。

　　现在的人工智能已经是中等水平的员工，理论上讲，它可以做很多事情。如果你还等待人工智能进一步发展，那你就错了。

　　人类的优势在于我们的复杂协同能力。每个人都无法掌握登月所需的所有知识，但合在一起就能登月，这就是复杂协同能力的力量。

　　至今，人工智能并未实现社会化，因此并未形工智能社会。然而，未来的发展肯定是向社会化方向进行的。

　　许多人质疑，人工智能是否会像电影《终结者》中的天网一样，毁灭人类？实际上，天网只是一个数据中心，而且一个超级智能体肯定不会毁灭人类，因为它肯定不如人聪明。

　　人的核心也不是超级智能，而是所有人在一起形成的社会化智能群体，文化作为智能的蓄水池，理性能帮助我们把智能东西总结成可交流的语言，沉淀到文化里。

　　有了人工智能，只会让人类智能进步速度继续加快，这意味着我们将有大量的服务机会产生，我们称之为服务规模化。

　　工业用机器让我们解放了很多，但在这一轮的智能中，我们可以用人工智能形成专家级服务，让我们的大脑有时间从事有创造力的工作。

　　很多人担心人工智能超越人类，但是人类同样在进化，而且人类的群体进化速度很快，人工智能是单个进化速度很快的，群体还没开始。所以，当人工智能的群体进化速度加快了，才可能和人有一拼。

　　当然，即便到了那个时候，我也不认为人工智能会把人类干掉，更有可能的是不同的人和人工智能组成新的小团体，相互竞争。

　　简单说，人工智能还有进步的空间，离通用人工智能还非常遥远，但这并不妨碍我们现在把它当作一个人看待。

　　它能做很多工作，但它还没有掌握协作。所以，你的价值是什么？是能和机器协作，你能带动更多的机器工作，我们称之为拥有更高的机器智商。

　　未来的成功者是机器智商高的人类。你要当工智能的将军，好好使用这些中等水平的人工智能同事。

　　今天有一个说法，叫AIGC，人工智能生成内容，很多人认为这是未来。在我看来，AIGC很有价值，但它很多时候并不是一个生意。

　　这好比我可以写一段文字，但仅仅卖文字并不能成为一个生意，只是一个手艺。我需要创建一个可以持续销售文字的平台，例如榕树下、中文网这样的小说网站，你需要有持续的东西来做生意。

　　我们都知道midjourney，一个图片生成网站，收入还不错。它在只有11个人，其中几个人是兼职的情况下，一年赚到一个亿美金。人们说这个业务不错，但问题是，为什么midjourney的收入不能再持续增长了？

　　以前各种媒体、广告的图由专业画师画，甲方提出配图建议，就像人工智能的提示词一样让画师画，如果你不满意想要微调，或者让画师画10幅选一幅，画师可能会感到不满，所以微调的空间很小。

　　用midjourney这样的工具，因为它可以生成10幅供你选择。如果不满意，可以换提示词微调，效率高了，成本低了，确实是一门生意。

　　但它面向的主要还是画师市场，因为人们愿意为他们的作品付费。至于普通人，他们可能会用midjourney生成画，但他们可能不愿付费，因为普通人没有持续生成内容的需求。

　　技术开发者喜欢从技术的角度出发去开发应用，而没有深入了解用户真正的需求。所以，我们说技术革新就像坦克，但如果想要真正成功，就需要深入了解和满足用户的需求，用坦克打出闪电战才行。

　　以报纸和杂志为例，他们需要的插画要有一致的风格。比如，美国的一本知名杂志叫《纽约客》。它的插画都是线条画。这样的画，一眼就能看出这篇文章是《纽约客》的。

　　我会和杂志商谈，帮他们设计一个统一的风格，他们可以买下这个风格。然后，我用这个风格为他们创造的所有图片都是他们的，因为我帮他们保持了图片风格的一致性。时间长了，他们的读者一看到这幅画就会认出来，就会知道这是他们的风格。

　　我先收风格费，然后在风格费里包含每个月或每周制作不超过一定数量的图片。如果他们需要更多的图片，我就加收费用。这样就变成了一种订阅服务。我用这个风格持续为他们创造内容，这就变成了一种服务。

　　所以，我们说未来主流不是AIGC，是AIGS。当然，刚才说的只是一个简单的例子，未来会有更多复杂的服务。

　　其次是节能增效，用更少的人力完成更多的工作，这在游戏设计、广告设计、视频制作等方面已经很常见，但是节能增效很难形成大市场。

　　我们所说的简单服务并不是指服务本身非常简单，而是指一次交互就可以解决问题的服务。例如律师服务，我把我的情况告诉你，你就能帮我解决问题。

　　复杂服务则需要长期跟踪。比如，健康长寿服务。如果你没有持续跟踪、没有形成一个基准值，对每次的偏差都有理解，那就无法真正理解其含义。

　　另一个复杂服务的案例是教育。传统的教育是大规模的，让人变得像螺丝钉一样。如果你符合标准，你就合格；如果你跟标准不同，你就不合格。

　　在学校里，老师使用的教学指导就是这样的标准。如果你的总结跟指导一样，你就能得满分；如果你的总结跟教材的主题不一样，即使你有自己的想法，你的答案也会被认为是错误的。

　　因为有了标准答案，就有了阅读的标准，这听起来很荒谬。这就是工业的常态，因为它需要标准化的零件。

　　我们需要的是人的创新，人应该是个性化的，人应该是独特的。我有自己的专长，我有自己的专家系统，我才有生存的价值。如果我跟别人一样，我就没有价值，因为我可以被机器替代。所以，我必须是不可替代的gogo体育官网app下载，我必须跟机器不同。

　　今天的教育都是基于标准的培养，这很有可能导致我们教育的人无法超越人工智能，因为人工智能比我们更好地掌握了标准答案。

　　古人其实已经在这么做了，孔子提倡根据每个人的才智来培养他们，释迦摩尼则提倡当机立断的教学法。

　　今天的学校教学不能满足这种个性化的需求。比如在小学，我们不能选择我们想学的知识和水平，可能会出现知识太浅或太深的情况。

　　这些人工智能老师就像一个专门研究如何因材施教的团队，他们会判断学生的个性化发展方向，给出对应的建议，这个团队还能把各种牛人囊括进来，来教育下一代。

　　人们常问，瓦特为什么重要？瓦特并不是第一个发明蒸汽机的人，但他的蒸汽机是第一个实现广泛商用的，可以广泛应用于火车、轮船等，所以他很重要。

　　后来有非常多人改良了蒸汽机，但我们依然纪念的是瓦特，往后被纪念的都是那些将蒸汽机应用到不同领域的先行者。

　　人工智能变革已经发生，我们接下来需要关注如何商业化和普遍使用这些技术。任何黑科技的发展都有其规律，每一轮的技术推动都是一种通用技术的推动，这是一个重要的标志。

　　蒸汽机的出现，最初是为了替代老蒸汽机，提高效率。但是很快，它就出现了新的应用，人工智能也会出现新的应用。

　　现在人工智能的发展到了什么阶段呢？就像瓦特蒸汽机一样，现在的人工智能已经可以广泛应用于各个领域，新的机会在新的应用场景中。

　　AIGC不应该只停留在内容的层面，而应该演化成AIGS，从提供简单服务演化成提供复杂服务。一旦形成复杂服务，你就会形成强大的壁垒，因为你会形成自己新的智能模式。

　　内容生成的简单服务是不可能变成智能的，但是复杂服务会变成智能。未来我们会有健康智能，会有教育智能，各种行业的专有智能是真正的未来。

　　这种智能的形成一方面要能对数据进行预处理，并且持续地进行预处理能构建新的模式、新的记忆预测。

　　蒸汽机在应用到货车和轮船过程中有一个关键人物——威廉·默多克。他发明了曲轴连杆，能够把往复运动变成循环运动，这就是配套技术。它使得蒸汽机能够有更广泛的应用。

　　我一直在关注AI agent的进展，微软最近发表了一篇论文，用不同的AI agent来完成手机上的各种操作，非常值得期待。

　　终端智能的爆发年就在眼前，在手机上会有越来越多的智能APP出现，我预期有一小部分甚至一半是智能化的游戏。

　　未来是一个跨界碰撞的好机会，包括刚才讲的数据智能，形成智能水平，行业智能，教育智能，健康智能等等，这都需要跨界融合，技术专家和认知专家一起来构建，加强需求的挖掘，这个市场专家一起来构建的新东西。

　　关于未来，我和京东原CEO徐雷有相似的看法，现在不是一个时代的下行，而是一个崭新的时代的开始。

　　这个崭新时代有它的连续性，历史从来不会突然出现这个，它是押韵的，只不过韵脚换了，但同样会经历导入期、展开期的变化，他们还有着完全不同的特性和逻辑。

　　为什么能做出这个判断？因为有以前的历史经验做参考。如果站在工业早期就很困难，工业是一种新的规律，它与以前的规则不同，这也就是当时很多思想家的判断和历史发展并不一致的原因。

　　我们现在很幸运，因为一个完整的工业已经完成了。我们现在可以对照数字，它有一些新的元素，但基本的规则是一样的。

　　总而言之，我们生活在一个伟大的时代，这个时代让我们有机会谈论诗和远方，这个时代接连不断的技术变革也让我们有机会创造自己的价值！

　　今年由于疫情和中美贸易战等原因，可能会有一些困难，特朗普当选的可能性在增大，中美贸易战和科技战可能会加剧，甚至可能会有地区摩擦，这可能会让人感到不确定。

咨询热线：

微
信
二
维
码

网站首页

关于gogo体育

产品展示

新闻资讯

客户案例

人才招聘

联系gogo体育

新闻资讯

比Sora更大的AI突破口来了！

友情链接：

咨询热线：

微 信 二 维 码

网站首页

关于gogo体育

产品展示

新闻资讯

客户案例

人才招聘

联系gogo体育

新闻资讯

比Sora更大的AI突破口来了！

友情链接：

微
信
二
维
码