一、认(rèn)识Sora
Sora的这一次(cì)进展可以说是(shì)既在意(yì)料之中,也在意料之外(wài)。
所谓在意料之中是指在ChatGPT诞生不(bú)久,AI专家们都已经形成共识,预判(pàn)了大模型技术势必要从单一的(de)文本模态向多模态发展的基本趋势。Sora只是顺应这一趋势而发生重大事件之一,它的诞生(shēng)宣告了文生视频、视频(pín)编辑(jí)与生成的最新进展。
说意料之外,是当我们亲眼看到其生成的视频时,其画质之精良已经堪比最先进(jìn)的电影工业的产物(wù),由此而带来的感觉与认知上的冲击是格外强烈的(de)。从表面上来看,其在视频长度、质量以及可控性等方面均达到当前的最高水平,碾压了同类竞争对手。从深层(céng)次来看,正如OpenAI的官网文章所表达的,Sora绝不仅仅只是个(gè)视频生成工具,它(tā)本(běn)质上是现实世界的模拟器,能够对物理世界、人(rén)类社会以及人与世界的复杂关系进(jìn)行逼真模(mó)拟与生成。一直以来(lái),计算机领域(yù)对(duì)于复杂系统的模拟就是个难题,数字孪生、游戏引擎、虚拟现实、数字仿真、电影制作等等领域都涉及对现实世界的复杂系统模拟。可以说Sora的(de)诞生宣告了人(rén)工智能在对现实世界(jiè)的模拟方面能力达到了前所未有的水平,也可以说是对传统相关(guān)工具形成了降维打击态势。
当然,我们也不得不(bú)承认,Sora仍然存(cún)在(zài)一些局限,比如对(duì)于物理世界的一些瞬时事件(诸如杯子摔(shuāi)落的瞬间),现实世界的(de)一些物理常识(比如说运行的束(shù)丝机断线不停机),以及一些细节呈现(比如有专家发现中(zhōng)国舞龙视频场景中的中国字(zì)多属于编造的错字),仍然存在着明显问题。
这些问题从根本上来讲(jiǎng)可以归结于高质量、高精(jīng)度数据(jù)的缺失(shī),或者是相应(yīng)物理场景的数据稀(xī)缺。比如瞬(shùn)时状态的视频在总体样本中(zhōng)的累积时长是相对较短的。但(dàn)是我相信(xìn)这些问题只要建立合理(lǐ)的诊断与发现机(jī)制,很快就可以(yǐ)通过增强长尾场景的样本供给,增强合(hé)成数据,以(yǐ)解决相应的问题。
Sora的重大意义在于(yú)宣告了(le)AGI技术路线(xiàn)在世界(jiè)模拟这一(yī)能力上已然走通,这是具有战略意义的事(shì)件,剩下的细枝末节的提升(shēng)与完善总体而言是属于战(zhàn)术层面。观(guān)察OpenAI这几年的(de)发展,该公司似乎从不在战术层面的问题上浪费宝贵时间与资源,这一点是值得我(wǒ)们学习的。所以我们要以更积极(jí)的(de)心态去看(kàn)待Sora,承认(rèn)这个里程碑式的进(jìn)展的积(jī)极意义,深入(rù)思考它有可能给(gěi)我们的人类社会所带来的全新的机遇以及全新挑战。
那么对于物理世界的这(zhè)种模拟究竟难在(zài)哪里呢?此前的Runway和Pica,我们多少可以明显看(kàn)出其(qí)生成的诸多问题(比如威尔史密斯吃面条的视(shì)频,史密斯的形象总体上是明显扭曲)。事(shì)实上,这(zhè)些问题归(guī)根结底是(shì)在于(yú)其(qí)视(shì)频所生成(chéng)的内容违背了现实世界的物理(lǐ)规律或人类社会的文化习俗(sú)。而Sora基本解决(jué)了这方面的问题(tí),而且是能够在更大时空范围内解决这一问题,时长(zhǎng)长(zhǎng)度从AI视(shì)频生成的几秒钟时间(jiān)拉长到了一分钟。在较长时空范围内能够生成遵循物(wù)理规律、社会习(xí)俗的视频是十分困(kùn)难的。要知道(dào)即便是几秒钟的视频(pín),其所表达(dá)的信息量也是十(shí)分巨大的,对于我们这世界(jiè)的表达是(shì)惊人的。一个几秒钟的视频就能泄漏关于我(wǒ)们所在世界的大部分秘密。比如“一个时尚的女子行走在东京街头(tóu)”这个(gè)视频,揭示了人类这个物种的生(shēng)物特征,展示了人(rén)类(lèi)文化的基本形态,展现了人类行走的形态,暗含了地球的重力状态,呈现了丰富的人(rén)文环境,暗(àn)示(shì)了丰富多彩(cǎi)的人与世界(jiè)的复杂(zá)关系……在一个一分钟视(shì)频所展(zhǎn)示的世界中,其物(wù)理环(huán)境和人文环境之复杂度是惊人的。Sora能够做到如此逼真的模拟(nǐ),完全吻合物理规律(lǜ)、文化习俗、生活常识,各种(zhǒng)对象与要素之间的空间关(guān)系、时序关系也是合情合理。更为难得(dé)的(de)是,即便在一些想象的场景,其所生成的“想象”视频也是合乎人类(lèi)的想象逻辑(jí),而非是随机乱象,其(qí)视频(pín)生成的质(zhì)量完全达到了(le)电影行(háng)业的最高(gāo)水(shuǐ)平。
传统的计算(suàn)机模拟仿真都需要借助复杂的数学模型。每一类物理现象有着复杂的数学模型,比(bǐ)如烟(yān)花爆炸、火焰喷发(fā)、海(hǎi)浪波(bō)动(dòng)、动(dòng)物行走。一分钟视频里面涉(shè)及太多模型,导致传统计算机(jī)合成技术难以承受影视制作(zuò)的高昂(áng)代价(jià)。2019年的“真狮版”的狮子王基本上(shàng)代表(biǎo)了(le)传统计算机辅助(zhù)生(shēng)成技术在影视制作行业的最(zuì)高水平。创作(zuò)团队为了再现真实狮子的动作、形态与毛发,动用了Maya、ZBrush、Houdini等建模软件,还借助了VR拍摄设备和工具,比如Oculus Rift、HTC Vive等,累计制作成本接近1.5亿美元。而现在(zài)Sora只需(xū)要一句(jù)自然语言提示就能生成与(yǔ)之(zhī)相媲美(měi)的高质量视频(pín)段落。以(yǐ)此来看,影视制作(zuò)行业的发展形态必被重塑。
二、Sora的产业影响
我相信Sora背后的技术(shù)绝不会停留在影视制作,具有重大商业价值的无人驾驶(shǐ)或(huò)许也将面临一(yī)次重大机遇。无人驾驶非常(cháng)重要的(de)一个问题是借(jiè)助无人驾驶汽车的感知设备(包括雷达和(hé)摄像头),对(duì)汽车行驶路况和周边环境进行实时(shí)感知和建模。借助海量的驾车(chē)数据、交(jiāo)通摄像头数据,Sora从原(yuán)理上来讲是有可能在无人驾驶场景(jǐng)对(duì)汽车行驶环境进行高精度模(mó)拟和建模的(de),其一(yī)旦能在无(wú)人驾驶形(xíng)成应用,无疑又给大模型产业注入全新推动力。
Sora对(duì)现实世界的建模与模拟能力,相信很快就(jiù)会在(zài)具有更高价(jià)值、更(gèng)为广阔的场(chǎng)景中取得应用。工业制造、游戏引擎、数字孪生、教学仿真以及前几年(nián)的元宇宙,都将(jiāng)从Sora背后的生成式世界(jiè)模拟(nǐ)能力中受(shòu)益。
比如说在我们(men)的(de)工业制造,也需要大量的(de)专业(yè)性极强(qiáng)的仿真和模拟才能对设备运行进行诊断与预测(cè)。借助传统工业机理模型的样(yàng)本合成,再借助(zhù)Transformer架构一个面向特定工业场景的Sora模拟器,从而极大提升工业(yè)场景模(mó)拟(nǐ)能力的泛化性,似乎是一个可行的技术路线。Sora背后的技术与传统行(háng)业的深(shēn)度融合将进一步释放生成式AI的产业(yè)价值,进一步推动AI与实体经济的深(shēn)度融(róng)合,也有利于AI技术自身的进一步迭代演进。
我相信未来的科(kē)学发现也将从Sora的这(zhè)次进展中受益良(liáng)多。Sora一个基本启发在于数据的充分训练后(hòu),其(qí)可以遵循数据背后所蕴含的基本原(yuán)理进行建(jiàn)模。Sora视频生成中所呈现的多是物(wù)理规律、社会规律。事实(shí)上,科学认(rèn)知世(shì)界有着不同的侧面,细分(fèn)为不同(tóng)的学(xué)科。我们是否也可以想象如何借助AI对其他学(xué)科,比如化学、生物等,也进行类似的数据驱(qū)动的学习。成就Sora的技术原理迁移到其他学科是可能的(de),因为本质上所有学科(kē)基本上就是表达各类实体、概念的时空规律、因果规(guī)律。Sora至少已经向我们展示了(le)从视频数据(jù)学习物理(lǐ)和社会相关的时空规律、因果(guǒ)规律的可能性。一旦能建模某个学科的规律,进而能够生成某个学科(kē)的现象,AI就一定能成为(wéi)助推该(gāi)学科发展的利器。
三、Sora的社(shè)会影响
AI能力的每一次进步,给人类社会带来的既是重大机(jī)遇,也是重大(dà)挑战。我们在积极拥抱这些全新机遇的同时,也要(yào)严肃思考潜在挑战,并积极应对。
AI的建模能力可以视作其对世界的“理(lǐ)解”能力。当我们使(shǐ)用“理解”一(yī)词时便暗含了(le)存在这(zhè)个行为的主体。在全(quán)部人类历史上,理解的主体是人,但如果不承认机器作为主体地位的话,便谈不上所谓(wèi)的机器“理解”。人类理解世界的结(jié)果也是为了表达世界,创造新的世界。从这个意义来(lái)讲,当机器能像人类一样重建某个(gè)概念的实例(比如“在东京街头行走的时尚女性”),便可被(bèi)视作具备一定的理解(jiě)能力。对(duì)机器而言,精准建模就是“理(lǐ)解”世界的基本方式。Sora借助数据驱动方式取得了对现实世界的惊(jīng)人建模与模拟能力,这种能力甚至是远超人类对世界的认知能(néng)力的。
机器对于世界的建(jiàn)模(mó)或认知可能比人类更接近(jìn)世界本原之真相。数千年来,人类一直采取各种方式认(rèn)知这个(gè)复杂的现实世界。神话、宗教、科学都(dōu)是人类(lèi)认知世界的方式。但不管是哪一(yī)种认知方式(shì)都是对世界本原的一种(zhǒng)简化理解。日(rì)常生活中,人们倾向(xiàng)于使用语言表达对于世界的体验;科学研究中,科学家倾向(xiàng)于用公式表达对世界的认知。但符号公式一定程度上都(dōu)是对非线性的复杂世(shì)界的一种(zhǒng)简化还原(yuán)。绝大部分(fèn)经典理论都是在各种假设与前提下才能建立,这些假设与(yǔ)前提都是人类认知复杂世界所作出的妥协。
两千多年(nián)来,人类从来没有停止过对自身认知能力的怀(huái)疑。先哲们的这种怀疑是完全值得我们重视的。世界的本原也许未必如人类所认知(zhī)的情形(xíng)。数(shù)百亿、千亿参数的大模型可能比(bǐ)人类学习更加充分,其能够学习(xí)到蕴含于海量数据人类难以觉察、难以表达的暗知(zhī)识、潜在规律。
机器(qì)对于世界认知能(néng)力将显著超越人类个体。如果将机器的建模能力认定为是一种对世界的认(rèn)知能力,那么我们可(kě)能不(bú)得不承(chéng)认,人类的认知能力相(xiàng)对于(yú)机器认知能力而言是存在着明显缺陷的。人类的认(rèn)知总体(tǐ)而(ér)言是线性的、有限的、简单的(de)。一直(zhí)以来数学领域对复杂非线性系统的建模都是重大挑战。在复杂决策时,人能同时考(kǎo)虑的决策变量是十分有限的,所谓的抓大放(fàng)小、抓住(zhù)主要矛盾的决策方式,本质上都是人类认知能力不足情况下的妥协之计(jì)。然而,AI却可以在数以百万计、千万计的(de)决策变量下进行决策。随着人(rén)工智能的进一步发展,机器的(de)感知(zhī)维度也更加多元。机器所感知的范围远远超过人类,比如高清摄像头可以将远在几公里范围(wéi)之外(wài)的景象看(kàn)得清清楚楚。机器的这类超级认知能力(lì)仍然有待我们深入研究,用好机器的这种超(chāo)级认知能力将给人类发展创(chuàng)造全新(xīn)机遇。
一定程(chéng)度的自主学习,人类(lèi)先验知识的合理褪除,是成就Sora惊人效果的(de)关键。事实上,人工智能最近几年的发展一而(ér)再、再而三(sān)地说明,人类专(zhuān)家越少的干预反而越能(néng)产生好的模型效(xiào)果。自然语言处理领域曾经发生过每(měi)开除一个语言学专家,机器翻译系统的效果就提升几点(diǎn)的(de)尴尬事(shì)实。这样的故事也延续到了大模型时代。这不(bú)得不让我们反(fǎn)思,人类对物理世界、人类社会皓首穷(qióng)经所积(jī)累的全部知(zhī)识,在发展机器智能面前似乎显得毫无(wú)价值,甚至起着负(fù)作用。人类对于发展机器智(zhì)能的真(zhēn)正价值似乎只在于设定一个认知世界先验载体(Transformer等模(mó)型架构),准备好训练素材(高质量训练(liàn)数据),使用大规模算力(lì)进(jìn)行训练。想想人(rén)类的优质教育,何尝不是搭建好良好的学习环境,准备好所有的学习条件,给予学(xué)生充分训练与试错机会,而不是填鸭式(shì)的知识灌(guàn)输和空洞的反复说教。人类的过往知识(shí)相对(duì)于机器而言(yán)似乎并不重要。想想人类社会代际间的经验与知识传承,我们这代人的知识与经验又有多少会被我们的下一代所认可而继承(chéng)呢?
激发人类(lèi)的(de)想(xiǎng)象(xiàng)力。人类的想象力通常是(shì)在看到实物之后得到极大(dà)的(de)激发。当我们的创意还仅仅停留在文字或脚本阶段时,它对我们的心(xīn)灵(líng)的(de)撞击仍然是有限的,亲眼所见(jiàn)带(dài)来的感官体验对心灵的震撼是(shì)难以言表的(de)。从这个意(yì)义上来讲(jiǎng),Sora的出现降低了创意和想象的视觉实现(xiàn)代价和门槛,它(tā)将极大地激发(fā)人类的想象力。人类的想象力或许会(huì)在(zài)AI工具的助力下实现(xiàn)一次跃迁或升级。
Sora进展也(yě)在刷新我们对于人类(lèi)创造能力的理解。从AI实现(xiàn)视角来看,人类(lèi)创造的本质(zhì)或(huò)许就是在更大的内容或者理论生成空(kōng)间中进行合理选择。ChatGPT和Sora这一类大模型在(zài)海量数据的喂养下,对现实世界进行了压缩表达,进而可以以较低的信息损失度还原世界本(běn)原(yuán)。在大(dà)模型的生成过(guò)程可以视作是在更大语义空间上进行高效的内容枚举或(huò)检索,这个语义(yì)空间可能比人类所能理解的语义空间(jiān)大得多,这也将帮(bāng)助人类拓展想象空间,提升人类的创造力。
人人都能创作的时代即将到(dào)来。Sora的(de)大规模应用将会极大地降低视频创造、内容(róng)创(chuàng)作的专业门槛。内容生成的速度、质量、效率都会前所(suǒ)未有地提高。文化娱乐行业的井喷式发展或许将成为现实。未来我们的(de)小学生,但凡有足(zú)够创意并(bìng)且能够用自(zì)然语言表达(dá)自己的(de)创作(zuò)脚本,都有可能制作一部属于自己(jǐ)的(de)影视(shì)作品。但是值得注意的是,创造过程的另一个必要(yào)环节在于评价。什么是符合人类真善美标准的,仍然还需要以人类(lèi)的尺(chǐ)度与标准(zhǔn)进行检视。人是万物的尺度,在AI时代仍然适用。对于AI生成内容,人类是唯一合格的评价(jià)者,人是AI的造物主,也是(shì)AI的尺度。
人人皆可创造看上去带来了一个所(suǒ)谓“AI平权”的美好(hǎo)未来。但从(cóng)长远来看,它也(yě)可能(néng)带来一些潜在的社会问题(tí)。人人都是导演、人人皆可制作,这意味着什么?艺术(shù)作品的总量(liàng)可能远远超出生命的长(zhǎng)度(即便寿(shòu)命得以(yǐ)翻倍),即便穷尽一生(shēng)也(yě)难以(yǐ)体(tǐ)验可能(néng)万分之一优秀文化遗产。审美对象的廉价与(yǔ)泛滥或(huò)造成人类审美情趣的倒退、体验欲望的消失(shī)。
每天吃(chī)肉,吃肉的欲望就会(huì)大(dà)大降低;天天过生日,生日的惊喜就(jiù)会丧失(shī)了。人类的审美体验所赖以实现的感觉与(yǔ)情感会在高频刺激下变得麻木而迟钝。美之为美或许正在于它的稀缺性。我们偶尔看一场热辣(là)滚烫电影一定会为了主人公的(de)执着(zhe)与努力而深深感动,但是如果在AI技术加(jiā)持下每天给你生成一部“打鸡血”题材的电影,你的灵魂只怕(pà)只会麻木到直打哈欠。偶尔一次的艺术经验是(shì)人生体验的升华,每天(tiān)都喝鸡汤,那大概率就是PUA。提不起兴趣,打(dǎ)不起精神,本已经是现代人的通病。Sora等直击人类体验(yàn)的AI技术恐将进(jìn)一步放大的人类的无(wú)意(yì)义感。
无孔不入的AI应用,不加(jiā)节制的AI滥用给人(rén)类带来(lái)的更(gèng)可能是灰暗的明天。AI的大规模使用或许会使我(wǒ)们人生中的每时每刻都(dōu)更加高效、更富意义。我们人生(shēng)的每分每秒或许在AI的助力下都能成为我们的(de)高光(guāng)时刻(kè)。然而,伟大是相对于平庸而言的(de)。人类唯有经历日常的(de)平庸现实体验才能感受那(nà)如电(diàn)光石火一般转(zhuǎn)瞬即逝的审美或崇高体验。每时每刻都是高光时刻也就从根本上毁灭了高光时刻对于人生的意义。我们生活中(zhōng)的每(měi)时每刻如果(guǒ)都被AI赋能,恐将加(jiā)速人类生存意义的毁灭。日常生活的“无意义”的最大意义或许就是(shì)在于成就那片刻的重大“意义”。AI的应用应该给人(rén)们日常生活的发呆与无聊留有余地(dì),要为(wéi)人类在未来AI时代的快速发展留下其在婴(yīng)童期田(tián)园漫步的美好回(huí)忆。与物理(lǐ)世界的直接交互体验,近乎刀耕火种一般的田(tián)园(yuán)体验或许将是(shì)AI时代更令人珍惜的(de)片刻。
伴随通用人工智能技(jì)术的(de)进一步(bù)发展,人类文明或许将进入一个“乱糟(zāo)糟”的盘(pán)整期,其基本特征是“剪不断,理还乱”。剪不断(duàn)的(de)是难以割舍的人工智能(néng)给(gěi)我们(men)带来的先进生产力,以及随之而来的巨大(dà)社会福(fú)利。理不乱的(de)是AI作为一种新型智(zhì)能体(tǐ),盲目插足人类的(de)伦理道德与情感事物,从而搅乱人类的精神世界。
在AI技术之(zhī)前,人类的精(jīng)神世界完全(quán)百分之百体现的是人类自(zì)身的意志。伴随着(zhe)AI制作工作(zuò)的大量使用,未(wèi)来的(de)艺术作品还有多大程度上是在体现人类的创作意志,这是个(gè)值得(dé)思考的问题。看看Sora在人类有限提示下完成的视频生成,其生成内容可以说已(yǐ)经不是人(rén)类(lèi)意志的(de)完整体现。或(huò)许会有人说,Sora毕竟还是依赖人类的提示,提示不就在体现(xiàn)人类的意志么。那么要知道,同一段提示,不同的AI工具,甚(shèn)至是同一个工具的不同(tóng)版本或者不同轮(lún)次(cì)的生(shēng)成,其(qí)结果都有差异。这个差异所在就是机器(qì)“意志”之体现。所以AI已经在人类(lèi)提示基础上植入了来自(zì)模型的“意志”。或许会有人说,Sora也是从人类制作的视频所学习的,其学习的数据源头是人类社会产生的,体现的是人(rén)类意志。但是一方面训练AI的数据是(shì)个集合体,其体现(xiàn)的是人类群(qún)体的创作意(yì)志;另一方面随着合成数据的大量使用,机器(qì)泛化能力已经进一步(bù)增强,创(chuàng)作者通过Sora这类AI工具所体现的(de)个人自由(yóu)意志的成分可能会逐渐减少。
随着Sora等视频生成技术的大规模应用,人类的感(gǎn)知与认知功能紊乱是个值得担忧的问题。当(dāng)AI生成做到了以(yǐ)假乱真,人类的感觉和知觉系统(tǒng)已经无法判断真伪(wěi)。现实世界和(hé)虚(xū)拟世界的边(biān)界日益模糊,将造成人类感(gǎn)知与认知功能紊乱与障碍。越来越多的人看到了Sora生成视频后发出(chū)了现(xiàn)实世界的怀疑。当我们将来沉(chén)浸在由人工智能所生成的虚拟世界的(de)时候,其逼真程度与现实就完全没有差别。那么影视作品西部(bù)世界中(zhōng)所描绘(huì)的人机共生社会所存在(zài)的(de)一系列问题将不可避免的在人类社会(huì)出现(xiàn)。在一个以假乱真的虚拟世界中,射杀一个虚拟智能体,这是人(rén)类在情感上(shàng)能接受的事(shì)实吗?人类的认知功(gōng)能的紊乱,势必会带来进一步的我(wǒ)们的情感和伦理事务的混乱等一系列问题。所以一个(gè)人类文明盘整期(qī)到来似乎是必然,在这个盘整(zhěng)期我们需要重新划定AI应用的边界,建立AI应用(yòng)的准则。
人类几千(qiān)年来所建立起来知识体(tǐ)系面(miàn)临着崩塌的风险。这一风险随着人工智能技术的进步可能会日益增大。以人类理解世界的(de)方式所建立起来的认知世界本原的知识体系,是在人类的直觉经(jīng)验基础之(zhī)上建立起来的(de)。在AI生成对人感知(zhī)能力的强大冲击下,人类越加不再确信自己的感知与认(rèn)知能力,这势必会引发人们对已经建立的知识体系的怀(huái)疑,势必会质疑对世界(jiè)本原的所建立已有认知。
AI大发(fā)展时代,如何重(chóng)建人类的认知(zhī)体系,如何(hé)重拾认知世界(jiè)的信心,都是未来我们需要积(jī)极回应(yīng)的(de)命题。从积(jī)极角度来(lái)看,机器的认知体系至少是人类现有认知体系的(de)有益(yì)补充。人类擅长构建抽象的、符号化、离散的、简洁(jié)的知识体系;而机器擅长构建具象的、数值化、连续的、复杂的知识体系。
四、对于AI发展所应秉(bǐng)持的基(jī)本态度
那么,对于AI的发展,我(wǒ)们应该(gāi)秉持一种什么样的态度呢?
AI发展(zhǎn)具有时代(dài)必然(rán)性,是先进生产力(lì)的代表。为此,我们应该以积极心态拥抱AI技术浪潮的到来,同(tóng)时做好AI发(fā)展所引发的社会变革的应对与准备工作。很多人认为AI是平权的机会。事(shì)实上,如(rú)果不加以合理的(de)干预和监管,AI更可(kě)能成为集权的利器。很多人认为AI是人类发展的超能力(lì),但如果不加以合理的干预和(hé)监管(guǎn),人类会被这种能力反噬。好莱坞电影漫威电影(yǐng)不止一次的告诫人类超级英雄很容(róng)易被其超(chāo)能力所反噬,这多少是对当下人类社会发展(zhǎn)近况的一(yī)种隐喻。没有对于AI的(de)积(jī)极干预、引(yǐn)导与规范,AI有(yǒu)可能成为人类社会发(fā)展之不可承受之重(chóng)。所以,人必须也终将成为AI的尺度,AI的发展只能以人类的福祉为唯一依据与标准(zhǔn)。