当前所在位置:首页 > 股票配资流程图解

Sora刷屏视频出现多处失误 模拟真实世界仍需闯关

9185

2024-05-17 【 字体:

Sora视频的质量令人惊叹,但目前,它们除了作为展示AI潜力的范例作用外,实用落地价值仍待观察。

2月18日,由OpenAI 发布的文生视频AI工具Sora引发的讨论仍在继续,范围涉及科技圈、资本圈、影视圈等,同时对Sora尚存在的问题研究也逐渐深入。

例如针对OpenAI定位“世界模拟器”的观点,图灵奖得主、Meta首席AI科学家杨立昆(YannLeCun)表示,根据提示词生成的大部分逼真视频并不表明这样的AI系统理解物理世界,生成视频的过程与基于世界模型的因果预测完全不同。

翻阅OpenAI披露的数十份视频,杨立昆的观点具体表现为老奶奶吹蜡烛火苗却不动、东京街头步伐错误的女郎、玻璃杯碎后错误的液体流向、在跑步机上反向跑步的男子等。

虽然OpenAI的明星效应为其带来大量关注,同日谷歌发布的多模态通用模型Gemini 1.5 Pro也变为配角,但不论是美国硅谷AI项目还是中国大模型创业公司,外界关注的核心均为实际应用效果。

视频虽惊艳bug仍存在

目前,Sora所生成的视频内容得到影视行业人士的普遍认可。Mystery Novel视觉预演工作室创始人、导演牛萌琛对第一财经记者表示,Sora视频中的画质,画面内容中的细节、光影、色彩都较精细,对导演来说,为其在拍摄前期做一个简单的镜头样板是够用的。对广告片拍摄来说,也可以用这种样板来与客户更好地进行概念上的沟通和确认。但如果涉及镜头运动角度,与更精细内容调控——如色彩、光影、道具、人物动作等,目前AI还不能达到令客户满意的程度。

一位纪录片从业者对记者表示,目前Sora还不能直接用于影视作品,因为精细度还不够。但已经足够震撼,完全可以用于前期开发,尤其是概念设计。一位宣传片从业者表示,工作室目前还没试过用AI生成来做素材,Sora 只发布了部分作品,且未开放公测,能不能用来代替剪辑不确定。无论如何,这些工具最后都是为人服务的,人的个人感情复杂性的表达不可替代。

摄影专业人士孟凡对记者表示,Sora视频帧率较高,说明计算能力比较强,且影片的宽容度更高,如调色、细节表现、高速镜头展现等。在直观感受上,Sora 模型产出的视频运镜自然,物体运动符合规律,镜头间逻辑一致性好,但是Sora视频的逻辑性会差一点。

具体表现在Sora视频内容中,如一分钟的东京街头女郎漫步,女郎走路过程中存在腿部变形、腿部交叉换位时错乱、右腿连续两次在前方迈步等错误;一段提示词为“一个人跑步的场景”中,主角在跑步机上反向奔跑;提示词为“考古学家在沙漠发现塑料椅子”的视频中,椅子呈现悬浮状态。

针对目前Sora存在的不成熟之处,OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。

OpenAI方面在《作为世界模拟器的视频生成模型》技术报告中表示,Sora作为一个模拟器,目前表现出许多限制,它并没有准确地模拟许多基本互动的物理效应,比如玻璃破碎。吃食物之类的互动不总是产生正确的物体状态变化。还有在长时间样本中发展的不连贯性或物体的自发出现。

对于这些问题,多位人工智能领域人士对记者表示,皆因概率模式的逻辑硬伤所致。中科深智创始人兼CEO成维忠表示,Sora因其并非严格的推理模型,目前还存在因果关系推理问题,但这个问题不是Sora自身的问题,而是目前所有类似模型均存在的问题,类似于大模型普遍存在的幻觉问题。未来会随着训练的加强而得到改善。

宜远智能CEO吴博对记者表示,通过加大训练量、增加训练数据与物理逻辑,该问题会逐渐得到改善,但无法根治。

南洋理工大学副教授张含望此前在GAIR全球人工智能与机器人大会上表示,想要真正突破最底层逻辑上的问题,因果关系(Causality)是一条必经之路。如果不把因果关系加上去,大模型只是在进行强行关联,幸运的话,模型在回答问题时能够给出正确答案,否则就会“胡说八道”。这是因为它背后的关联是错误的——把共生关系当成了因果关系。

实际使用价值待解

Sora之所以能引发广泛关注,除了画面超过同行的质量原因外,更在于外界对其即将带来的行业迭代充满好奇。

就影视行业而言,得知Sora视频发布后,时光矩阵联合创始人郁刚称自己的心态冰火两重天,一方面对于影视特效公司而言,该消息算不上一个好消息,自己第一个感觉是“特效公司要死了吗?”很想将过去学的特效工具“埋了”。

郁刚称自己过去能想象到AI视频会发展到这个精度,但没有想过会这么快,其原本的预测时间是三到五年,结果在一年时间内就达到——从兔年春节到龙年春节,OpenAI实现了从文生文到文生视频的迭代。但从另一个角度来说,郁刚称自己很欣喜,从导演角色来说,过去最痛苦的就是拿到剧本之后找钱、找投资方,开了四年公司,账上亏损欠账三百万人民币,但看了Sora之后,拍视频、做成特效并放到荧幕上这步最贵的动态预演环节,完全可以通过AI实现成本节省。

郁刚预计,未来AI视频生态将发生巨大变化,影视行业或将变为服务业,视频生产的概念也将发生变化。

专业动画师Owen Fern不认可当下“Sora颠覆行业”的极端观点,他称,作为一名动画师,目前并不对Sora视频感到害怕,因为动画制作本质上是需要反复修正的过程,特别是在为客户服务时更是如此。目前 AI 还无法提供给客户一个精雕细琢的作品,而只是一些粗制滥造的东西。这些细节看似挑剔,但它们正是客户对知识产权(IP)或产品所持的态度。

Owen Fern强调称,Sora视频的质量的确是令人惊叹的高,只是就目前而言,它们除了作为展示AI潜力的范例作用外,实用价值仍待观察。

新加坡Vibranium Consulting副总裁陈沛近期实际使用和观察了RunwayML、Stable Video Diffusion(SVD)、Adobe Firefly等主流AI视频服务,通过对比发现,目前AI生成视频的质感往往达不到最初宣传的效果,还会在物体行进方向、人物四肢等方面出现明显错误,无法满足实际应用的需求。

Perplexity AI 创始人之一的Aravind Srinivas表示,Sora虽然令人惊叹,但其还没有做好准确模拟物理的准备——正如Sora研究员在报告中提及的那样。并且,行业并不能很快地在家庭清洁机器人上运行这些巨大的“世界模拟器”的模拟推理。

浙商证券认为,短期内,Sora及同类产品可大幅提升图像和短视频的制作效率,改变创意生产及营销工作流,提升短视频产品生产力。对于业态更加复杂的长视频和游戏,受限于模型还无法准确理解因果关系及其他技术难点,现阶段或以提供美术灵感支持为主。

中长期来看,浙商证券表示,Sora及同类产品将参与到改变信息生产和分发两大环节的进程中,PGC(专业生产内容)将广泛采用AI工具辅助生产,UGC(用户生成内容)将借助AI 工具逐步替代PGC。此间,AI生成视频工具的商业化将提速。

阅读全文
相关推荐

美国4月ISM制造业PMI创五个月来最大萎缩,产出指数创2020年5月以来新低

美国4月ISM制造业PMI创五个月来最大萎缩,产出指数创2020年5月以来新低
5月1日周四,ISM公布的数据显示,美国4月ISM制造业指数再度低迷,出现五个月...

每经热评丨以数字中国建设推进中国式现代化

每经热评丨以数字中国建设推进中国式现代化
每经特约评论员 盘和林党的二十大报告提出,以中国式现代化全面推进中华民族伟大复兴...

微信“蓝包”来了 新功能!马化腾表态

微信“蓝包”来了 新功能!马化腾表态
  春节前夕,微信小店“送礼物”再次更新,微信群蓝包今日上线。  此前,“送礼物...

精彩抢先看秒懂金融·资管行业践行“三投资”理念优秀实践系列访谈之上海信托

精彩抢先看秒懂金融·资管行业践行“三投资”理念优秀实践系列访谈之上海信托
为贯彻中央金融工作会议精神和新“国九条”部署要求,大力推动中长期资金入市,树立理...

三江共话人民币 开启跨境新篇章2025年四川省跨境人民币业务推动暨政策宣讲会在宜举办

三江共话人民币 开启跨境新篇章2025年四川省跨境人民币业务推动暨政策宣讲会在宜举办
近日,由中国人民银行四川省分行、兴业银行成都分行主办,中国人民银行宜宾市分行、兴...

新疆尼雅遗址主题展将于本月在上海开幕

新疆尼雅遗址主题展将于本月在上海开幕
1995年,考古工作者在新疆尼雅遗址墓葬中发现了保存完好的“五星出东方利中国”锦...

本周3只新股申购!又一行业巨头登陆A股

本周3只新股申购!又一行业巨头登陆A股
  据目前安排,若无变化本周(3月24日到28日)共有3只新股申购,其中创业板1...

羴牧欧铂佳——以科技与自然融合,打造新一代营养标杆

羴牧欧铂佳——以科技与自然融合,打造新一代营养标杆
随着消费者对婴幼儿奶粉品质要求的不断提升,羊奶粉市场迎来新的发展机遇。欧铂佳悠佳...

在“革新与挑战”基因下升级 皇冠要诠释“新豪华”_威尔法_丰田_车型

在“革新与挑战”基因下升级 皇冠要诠释“新豪华”_威尔法_丰田_车型
随着汽车工业发展的车辙滚滚向前,汽车也从传统意义上的交通工具,变成了传承文化的载...

优化科技型企业金融服务

优化科技型企业金融服务
今年全国两会期间,科技创新成为代表委员热议的话题。推动科技创新离不开金融赋能,培...