视频生成大模型会是下一个竞争高地吗?
撰文 | 蓝洞商业 赵卫卫
快shou自研视频生成大模型「可灵」上线后,截至目前,申请使用的预约人数已经超过 6.5 万。一时间,引发行业轰动。
原因很简单,OpenAI 的文生视频 Sora 发布后,一直处于内测状态,外界无缘得以使用;而快shou「可灵」发布即测试,通过快shou旗下创作工具快影 App,用户可以直接申请公测,通过后可生成 2 分钟左右、分辨率为 1080p 的文生视频,视觉效果并不弱于 OpenAI 的 Sora。
文生视频需要耗费巨大的算力资源,对模型的能力维度要求更高,是国内大模型厂商尚未充分竞争的领地。让人意外的是,快shou「可灵」成为国产大模型中最先「交卷」的一家,早于字节。
但快shou这种领先优势并不会维持太久,「字节跳动的视频生成大模型也在内测中,估计很快(发布)了。」行业知情人士透露,预计跟快shou类似,字节旗下视频生成大模型也将通过旗下创作工具剪映最先上线。
此外,就在「可灵」上线一周后的 6 月 13 日,Luma AI 发布最新文生视频模型 Dream Machine,向所有用户免费开放使用,其效率可以达到每 120 秒就能生成 120 帧画面,还能快速生成 5 秒钟的电影级别视觉效果的视频片段,此外,Luma的模型超越快shou可灵的地方,还有丰富的美学风格选项。
更多竞争的对手正在赶来的路上。「6月底之前,大模型厂商都会不断放出 Sora 类模型产品,文生视频和图生视频大模型将遍地开花。」大模型行业分析人士认为,此前各家大模型厂商都具备了视频生成能力,只是碍于算力成本以及视频效果尚未全面优化,所以并未全面铺开。
大模型之战,从技术卷到应用,从百模大战卷到价格战,视频生成大模型会是下一个竞争高地吗?答案正在揭晓。
弯道超车字节?
「可灵的效果是目前中国 Sora 类的第一,非常意外的是来自快shou团队。」行业分析人士认为。
快shou自研视频生成大模型「可灵」上线后,让外界意外的,一方面是视频生成的效果可以比肩 Sora;另外一方面是其来自快shou团队。因为,在此前的大模型竞争中,快shou并不是引人关注的第一梯队成员。快shou此前发布通用大语言模型「快意」、文生图大模型产品「可图」,影响范围都很有限,直到如今的「可灵」。
从快shou「可灵」公布的数据看,中国版 Sora 确实是其对标的目标。
从技术路线上看,快shou「可灵」采用的是跟 Sora 雷同的 DiT 架构,用 Transformer 代替了传统扩散模型中基于卷积网络的 U-Net。快shou大模型团队还自研了一款 3D 时空联合注意力模块和 3D VAE 网络,以实现更好的时空运动建模与更高效的隐空间编/解码。
而从「可灵」的官方网站上,可以一目了然其产品卖点。
最引人注意的是,可灵支持生成长达 2 分钟的 30 帧视频,分辨率最高 1080p,自由定制宽高比,这一点远超 Sora 和国内大模型厂商。而在生成视频的效果上,可灵强调自己的能力包括生成大幅度的合理运动、模拟物理世界特性、具备概念组合能力和想象力这三大优势。
而从传播上,「可灵」也区别于以往国内大模型的发布,最先从国外社交媒体上引起关注,然后在国内热度升高,实现了「出口转内销」或者「墙内开花墙外香」的特点。
在推特上,对「可灵」的使用评价和评测非常广泛。
「感觉大家也别等 Sora 这种又贵又费时的工业级 AI 了,先可灵免费用起来。快shou这次真是让人惊喜。」
「与国外的 Sora 视频生成大模型相比,中国大模型开发者更理解本土文化,大模型生成的内容也更能满足本土用户的需求。」
「下午充了一个快影的年费会员,好像就跳过了快shou可灵的排队,直接可以通过更改 prompt 生成视频了,效果很惊艳呀。生成一个视频的时间,在 VIP 会员下,大概需要 3 分钟。」
正是靠着国外社交媒体的热度,「可灵」的热度水涨船高。发布一周之后,快shou才正式在官方公众号上推荐这款产品,标题为「今天你‘可灵’了吗?」
事实上,腾讯和字节等互联网公司,同样拥有视频生成大模型,只是尚未完全公测或者效果不尽人意。字节跳动剪映旗下的产品「即梦」就具备短视频生成功能,可以选择运镜类型、视频比例和运动速度,生成 3-6 秒的视频,但在视频呈现效果和时间长度上,并没有展示出比肩 Sora 的优势。
这也更凸显了快shou「可灵」令人惊讶的优势,因为行业一直认为要对模型训练做扎实,本质上不存在弯道超车,如果基础模型做不好,文生文和文生图都做不好,何谈文生视频。但意外就在于,快shou的视频大模型奇袭成功了。
可灵背后的人
谁才是「可灵」背后的决定性人物?这可能是一个人才流动前仆后继的故事。
就在快shou「可灵」正式发布的前几天,快shou专家研究员王鑫涛对外做过一个《视频生成的初探及其可控性研究》学术分享,这被认为是快shou内部对「可灵」大模型技术层面的思考,相关 PPT 也很快流传出来成为大模型行业研究的资料。
「可灵」发布之后,王鑫涛又出现在深圳的一次人工智能学术分享会中,王鑫涛提到在追赶 Sora 的过程中,面临的核心挑战在于,如何实现在长视频和长镜头中学习到物理规律,从而确保生成的视频具有高度的物理一致性。
因而这是王鑫涛认为最值得深入研究的问题,「传统上,AI 生成的视频往往局限于单一镜头,缺乏复杂场景下的连贯性和真实感。然而,Sora 却能在复杂的长视频中实现镜头的流畅切换,同时保持强大的三维、时序和物理一致性。」
事实上,王鑫涛入职快shou的时间并不长,目前是快shou视觉生成与互动中心的高级研究员,隶属于快shou多模型与 AIGC 部门,负责视觉内容生成方面的研究。公开资料显示,去年他还是腾讯 AI 实验室的高级研究员,领导了视觉内容生成 (AIGC)方面的工作。
可以说,快shou「可灵」奇袭的背后,离不开王鑫涛这样的腾讯前 AI 力量的贡献。
此前腾讯混元开源混元大模型时,就已经公开其具备文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成。当时混元大模型文生图负责人芦清林就提到,不同模态之间的对齐是难点之一,混元想做视频和音频的同时生成,但要解决二者用一个模型输出的对齐有很大混淆。
而另外一方面,「可灵」出圈的背后,也意味着昔日快shou AI 团队成员的某种失落。
前快shou技术副总裁王仲远,如今已经是北京智源人工智能研究院院长。去年 12月,快shou组织架构大调整中,主站、电商与商业化三个事业部下属都拥抱了变化,而负责 AI 业务的王仲远不再担任任何职务。
仅仅半年前,王仲远作为快shou AI &用户增长业务负责人,在快shou创作者大会上首次公布了快shou AIGC 的进展,其核心旨在提升短视频内容的创作力和生产力。当时快shou已经开放了「可图」大模型产品,支持文生图和图生图两类功能,已上线 20 余种 AI 图像玩法。
整个 2023 年,是快shou缺少 CTO 的一年,也是快shou大模型组建团队和业务的落地之年。从组织架构上看,快shou大模型团队隶属于快shou社区科学线,而业务包含大语言模型、文生图大模型、视频生成大模型等多个方向,但大语言模型和文生图模型相比同行都乏善可陈。
中国版的 Sora 肯定也是王仲远的期待之一,只是不知道他如何看待「可灵」。
离开快shou之后,王仲远代表智源研究院对外接受过采访,谈及 AGI(通用人工智能)正在加速到来,过去他觉得实现科幻片里超级人工智能的场景还有四五十年,现在他感觉可能再用四五年 AGI 就会诞生。
「Sora 的出现也是一个划时代的时刻,它真正的价值不是文字生成精美的视频,而是说明大模型可能具备了理解三维世界的能力。换句话说,Sora 初步展现了世界模型上的 scaling law(规模法则)。」王仲远认为。
第一能维持多久?
当下的快shou「可灵」备受好评,但国内 Sora 第一的位置能维持多久?
「可灵」唯一的使用渠道就是快shou创作工具快影 App,但快影 App 的下载数据并没有太大的波动。根据七麦数据,App Store 近七日日均下载量仍旧维持在 2 万左右,在应用(免费)和摄影与录像(免费)榜单上的排名依然保持稳定,并没有太大的变化曲线。
从商业路径上看,目前「可灵」吸引的更多还是 C 端消费者。相比文生图和文生文等模型在广告等领域已经有广泛的使用场景,文生视频大模型的使用场景依然有限,所以策略往往先服务于内容生产者,不断扩展消费端的使用场景,最终吸引 B 端客户和商家付费使用。
更重要的是,国内 Sora 第一的竞争对手正在赶来的路上。
一方面是国内市场,根据消息人士透露,字节跳动旗下视频生成大模型也在内测中,估计很快发布,也将依靠旗下创作工具剪映上线。对剪映来说,此前已经上线的「即梦」已经实现了文生视频大模型的相应功能,只是目前这部分功能优化程度不足而已。
而变化更快的是国际市场,就在 6月 13 日,Luma AI 首发了自己的视频生成模型 Dream Machine,用户可以通过文字或图片生成高质量的高清视频,比快shou「可灵」更进一步的是,Luma 实现了免费全量开放,登录即用并不用预约等待。
但与快shou「可灵」面临的问题一样,Luma AI 也面临算力不足的问题,使用时需要长时间等待,等待结果也有可能是生成内容失败,所以算力是制约文生视频大模型最大的瓶颈。
大模型行业此前公开过相关数据,大模型要实现 Sora 类似的水平,就需要有千卡级别的算力,进一步优化能力则需要万卡级别的算力,这意味着大规模算力集群的调动能力,不论是使用英伟达的旗舰 GPU 芯片,还是华为昇腾的国产 AI 芯片。
大模型竞争依然处于初期,AI 大模型本身对云服务来说是锦上添花,如何把应用落地做好,把成本最低,依然是当下大模型行业面临的共同命题。
相比于字节跳动的大模型策略,快shou在大模型上的策略仅仅有「可灵」依然是不够的。字节跳动豆包大模型最明显的策略和标签就是成本低,通过价格战大幅降低模型推理的单位成本,吸引 B 端客户进入火山引擎的云服务之中。如果字节跳动发布视频生成大模型,那一定是实现了成本更低的一条路。
无论如何,追赶 Sora,已经成为大模型行业在 2024 年的主要共识和任务之一,快shou要稳住国内 Sora 第一的位置,还要面临残酷的考验。
未经允许不得转载:CYQY-生活与科技 » 快手可灵,把压力给到了抖音剪映