Sora—人工智能的里程碑

[日期：2024-10-17]

作者：信息技术次浏览

[字体：大中小]

2025届15班罗天瑞指导教师：付秀军

图片3.png

“AI”一词，从去年到现在都十分火热。由最早的小爱同学等一批AI，再到如今的Chat GPT，人们对于AI的了解在一步一步前进；从简单的发送命令，再到现在的可以聊天，绘画，扮演等，AI的功能也在一步一步增加。

不久前，世界第八届渲染大赛开始，主题为“无尽阶梯”，各路大神都带着自己的力作参与其中，但有可能的是，这是最后一届审核较为轻松的了。因为在2024年初，OpenAI发布了新型人工智能“Sora”，Sora可以根据用户提供的图片，生成出延续其风格和主题的视频，或者在原有视频的基础上，添加或删除一些元素，创造出新的效果。

那为什么Sora比GPT的关注度更高呢？

首先大家可能都见过GPT等AI的绘画吧。虽比人工绘画更高效，更便捷，但问题就在于它的不协调。可能画一只手，画出6个手指头，可能人背对屏幕看电视。但Sora不同，Sora能够模拟出物体和角色在三维空间中的运动和交互，即使它们被遮挡，也可以保持一致性，同时还能够模拟出物理交互的反馈，比如画家在画纸上的笔触，或者球员在球场上的动作，让视频看起来更加真实自然。

在寒假，抖音、快手上热火的《洗澡歌》是由通义千问所合成的，但是十分短暂。Sora却达到了新高度，它能够生成长达60秒的视频，这在目前的人工智能领域是前所未有的。以往的文生视频大模型，如Pika、RunwayML等，最多只能生成20秒的视频，而且画质和内容都不尽人意。Sora则突破了这一限制，不仅能够生成长视频，而且能够包含多角色和多角度的镜头，让视频更加丰富多彩。

Sora还有惊人的一点，那就是它的参数量。

参数量是衡量一个模型复杂度的指标，一般来说，参数量越大，模型越复杂，能力越强，但也越耗费算力。Sora的为30亿，但是对比万亿级别Gemini，显然并不算多。不过虽然数值上没有那么强势，Sora在视频上的生产力却远超Gemini，说明什么？说明Sora的模型十分高效，能在有限的参数下，实现它强大的功能。

Sora的诞生，无疑是AI的里程碑，不过一个事物的诞生，往往也伴随着质疑。

Sora生产的视频，质量往往会随时间推移得到更好的提升，等真到了以假乱真的时候，视频、影视等相关行业将大概率消失，此前因为类似的原因就发生过2023年好莱坞演员大部分罢工的事件了。

对于AI，人们的质疑从未停过霍金曾经说人类应停止对AI的研究，对于Sora的诞生，特斯拉创始人马斯克也发出了“gg humans”！

但是360的创始人周鸿祎却又是这样评价的：

“年前我在风云演讲上分享了十大模型预测，没想到年还没过完，就验证了好几个，从Gemini，英伟达的Chat with RTX到OpenAI的Sora，大家都觉得很炸裂。朋友问我怎么看Sora，总体来说就是我认为AGI（人工通用智能）很快就会实现，就这几年的事了。”

作为一名对计算机科学知识高度感兴趣的中学生，我对于Sora以及AI的认知是这样的：

对于GPT、Sora的泛用性会更高。Gpt在平时，可能就只是聊天的一个同伴，在我们学习和大人的工作上很少起作用，而在视频创作领域Sora出现的频率则明显会更高。虽然Sora创造的视频也并不是有多么精美，多么让人感叹，但它最大的优势就是创作的视频能完全符合你对现实生活的认知，在某种情况下甚至可以让人认为是真人拿手机拍的。就比如说电影，是人们消遣娱乐的一种方式，其中部分镜头会涉及到大量的群众演员，寻找合适的人群是个难题。从今往后有群演的地方就可以使用Sora了，大量节省了人力和财力。相信《科幻世界》三月刊《永恒之境》中所描述的那种情况可能很快就会到来。

但也正因如此，以后我们对AI生产的视频、照片等媒体需要更加细心，坏人也可能会使用Sora进行敲诈、勒索，我们需提高“媒介素养”。

AI的前景拥有着许多不确定的因素，我们对于它们的应用也应该有所限制。大多数人提起所谓的“机器人三大定律”却不知道它最早源自科幻小说，AI给我们生活提供了极大的便利性，人工与AI合作，并且不过度依赖的情况下，相信我们的生活会愈加美好。

上一条：3D设计—镂空球制作

下一条：我的编程之旅