Sora—人工智能的里程碑

[日期:2024-10-17] 作者:信息技术 次浏览 [字体: ]

2025届15班 罗天瑞   指导教师:付秀军

图片3.png

       “AI”一词,从去年到现在都十分火热。由最早的小爱同学等一批AI,再到如今的Chat GPT,人们对于AI的了解在一步一步前进;从简单的发送命令,再到现在的可以聊天,绘画,扮演等,AI的功能也在一步一步增加。

       不久前,世界第八届渲染大赛开始,主题为“无尽阶梯”,各路大神都带着自己的力作参与其中,但有可能的是,这是最后一届审核较为轻松的了。因为在2024年初,OpenAI发布了新型人工智能“Sora”,Sora可以根据用户提供的图片,生成出延续其风格和主题的视频,或者在原有视频的基础上,添加或删除一些元素,创造出新的效果。

       那为什么Sora比GPT的关注度更高呢?   

       首先大家可能都见过GPT等AI的绘画吧。虽比人工绘画更高效,更便捷,但问题就在于它的不协调。可能画一只手,画出6个手指头,可能人背对屏幕看电视。但Sora不同,Sora能够模拟出物体和角色在三维空间中的运动和交互,即使它们被遮挡,也可以保持一致性,同时还能够模拟出物理交互的反馈,比如画家在画纸上的笔触,或者球员在球场上的动作,让视频看起来更加真实自然。

       在寒假,抖音、快手上热火的《洗澡歌》是由通义千问所合成的,但是十分短暂。Sora却达到了新高度,它能够生成长达60秒的视频,这在目前的人工智能领域是前所未有的。以往的文生视频大模型,如Pika、RunwayML等,最多只能生成20秒的视频,而且画质和内容都不尽人意。Sora则突破了这一限制,不仅能够生成长视频,而且能够包含多角色和多角度的镜头,让视频更加丰富多彩。

       Sora还有惊人的一点,那就是它的参数量。

       参数量是衡量一个模型复杂度的指标,一般来说,参数量越大,模型越复杂,能力越强,但也越耗费算力。Sora的为30亿,但是对比万亿级别Gemini,显然并不算多。不过虽然数值上没有那么强势,Sora在视频上的生产力却远超Gemini,说明什么?说明Sora的模型十分高效,能在有限的参数下,实现它强大的功能。

       Sora的诞生,无疑是AI的里程碑,不过一个事物的诞生,往往也伴随着质疑。

       Sora生产的视频,质量往往会随时间推移得到更好的提升,等真到了以假乱真的时候,视频、影视等相关行业将大概率消失,此前因为类似的原因就发生过2023年好莱坞演员大部分罢工的事件了。

       对于AI,人们的质疑从未停过 霍金曾经说人类应停止对AI的研究,对于Sora的诞生,特斯拉创始人马斯克也发出了“gg humans”!

       但是360的创始人周鸿祎却又是这样评价的:

       “年前我在风云演讲上分享了十大模型预测,没想到年还没过完,就验证了好几个,从Gemini,英伟达的Chat with RTX到OpenAI的Sora,大家都觉得很炸裂。朋友问我怎么看Sora,总体来说就是我认为AGI(人工通用智能)很快就会实现,就这几年的事了。”

       作为一名对计算机科学知识高度感兴趣的中学生,我对于Sora以及AI的认知是这样的:

       对于GPT、Sora的泛用性会更高。Gpt在平时,可能就只是聊天的一个同伴,在我们学习和大人的工作上很少起作用,而在视频创作领域Sora出现的频率则明显会更高。虽然Sora创造的视频也并不是有多么精美,多么让人感叹,但它最大的优势就是创作的视频能完全符合你对现实生活的认知,在某种情况下甚至可以让人认为是真人拿手机拍的。就比如说电影,是人们消遣娱乐的一种方式,其中部分镜头会涉及到大量的群众演员,寻找合适的人群是个难题。从今往后有群演的地方就可以使用Sora了,大量节省了人力和财力。相信《科幻世界》三月刊《永恒之境》中所描述的那种情况可能很快就会到来。

       但也正因如此,以后我们对AI生产的视频、照片等媒体需要更加细心,坏人也可能会使用Sora进行敲诈、勒索,我们需提高“媒介素养”。

       AI的前景拥有着许多不确定的因素,我们对于它们的应用也应该有所限制。大多数人提起所谓的“机器人三大定律”却不知道它最早源自科幻小说,AI给我们生活提供了极大的便利性,人工与AI合作,并且不过度依赖的情况下,相信我们的生活会愈加美好。