紧随Sora,阿里也推出AI图生视频模型EMO。
阿里巴巴集团智能计算研究院在近日上线了一款新的AI图片-音频-视频模型技术EMO,官方称其为“一种富有表现力的音频驱动的肖像视频生成框架”。目前,EMO框架上线到GitHub中,相关论文也在arxiv上公开。
据悉,用户只需要提供一张照片和一段任意音频文件,EMO即可生成会说话唱歌的AI视频,以及实现无缝对接的动态小视频,最长时间可达1分30秒左右。表情非常到位,任意语音、任意语速、任意图像都可以一一对应。
EMO框架介绍 来源:GitHub官网
阿里研究团队表示,EMO可以生成具有表情丰富的面部表情和各种头部姿势的声音头像视频,同时,其可以根据输入视频的长度生成任意持续时间的视频。
同时,EMO还拥有音频驱动的人像视频生成,表情丰富的动态渲染,多种头部转向姿势支持、增加视频的动态性和真实感,支持多种语言和肖像风格,快速节奏同步,跨演员表现转换等多个特点与功能。
技术层面,阿里研究人员分享称,EMO框架使用 Audio2Video 扩散模型,生成富有表现力的人像视频。该技术主要包括三个阶段:一是帧编码的初始阶段,ReferenceNet 用于从参考图像和运动帧中提取特征;二是在扩散过程阶段,预训练的音频编码器处理音频嵌入。面部区域掩模与多帧噪声集成以控制面部图像的生成;三是使用主干网络来促进去噪操作。在主干网络中,应用了两种形式——参考注意力和音频注意力机制,这些机制分别对于保留角色的身份和调节角色的动作至关重要。此外,EMO的时间模块用于操纵时间维度,并调整运动速度。
EMO相关论文简介来源:arxiv官网
阿里巴巴集团新任CEO吴泳铭曾表示,为了服务好更多的企业和AI开发者,阿里坚持做好两件事:一是提供稳定高效的AI基础服务体系,特别是强大的云计算能力,为全行业训练AI、全社会使用AI打造坚实的基础底座。二是创建开放繁荣的AI生态。
过去一年,阿里巴巴在AI方面持续发力,包括阿里云推出通义千问、通义万相等多款对标OpenAI的AI大模型产品,以及基于双流条件扩散模型的真人百变换装技术Outfi tAnyone、角色动画模型Animate Anyone等技术,实现多个场景应用。
今年1月26日,阿里推出的Qwen-VL模型实现多次迭代升级,并宣布Plus和Max两大版本升级,支持以图像、文本作为输入,并以文本、图像、检测框作为输出,让大模型真正具备了“看”世界的能力。
阿里方面称,相比于开源版本的Qwen-VL,Plus和Max版本模型在多项图文多模态标准测试中获得了堪比Gemini Ultra和GPT-4V的水准,并大幅超越此前开源模型的最佳水平。
阿里Qwen-VL模型介绍 来源:GitHub官网
除了自研AI模型技术产品之外,阿里还推动投资一些AI大模型公司。在今年2月,阿里领投了国内 AI 大模型团队月之暗面(MoonShot AI)10亿美元的新一轮融资,促使该公司估值高达25亿美元,成为中国 AI 初创公司最大的一笔单轮融资。
在去年10月,阿里参投了百川智能公司3亿美元的A1轮战略融资。官网资料显示,百川智能成立于2023年4月10日,由前搜狗公司CEO王小川创立。公司核心团队由来自搜狗、百度、华为、微软、字节、腾讯等知名科技公司的AI人才组成。百川智能成立不到100天,便发布了Baichuan-7B、Baichuan-13B两款开源可免费商用的中文大模型,且在多个权威评测榜单均名列前茅,下载量突破百万。
百川智能融资历程 来源:天眼查APP数据
阿里还将AI用在不同领域。在医疗方面,阿里巴巴“医疗AI多癌早筛公益项目”于近日在浙江丽水启动。该项目将达摩院医疗AI前沿技术创新应用于卫生健康领域,希望通过大规模的随机性日常检查,实现多癌早筛,提升当地的数字健康水平,这也是全国首个落地的通过AI实现多癌早筛项目,意味着AI前沿研究走出实验室,有望向更多医疗资源不均衡的地区推广。
据悉,“医疗AI多癌早筛公益项目”不仅增加了早筛的种类和精确度,还可一次早筛多个癌种,将有效提高癌症的筛查效率,提高无症状人群的早期癌症发现率,从而改善癌症患者预后。该项目在丽水将先从胰腺癌和骨质疏松两个病种入手展开早筛,并逐步接入肝癌、食管癌、胃癌、结肠癌、脂肪肝等癌症和慢性病的筛查能力。
在招聘方面,前程无忧与阿里云签订关于“招聘+AI”的全面合作备忘录,双方将基于公共云搭建“招聘+AI平台”,从推荐搜索、AI工程化等方向开展全面合作。同时,前程无忧计划接入大模型,让大模型技术在招聘领域落地。
阿里巴巴“医疗AI多癌早筛公益项目” 来源:阿里巴巴公益官微
阿里云近日发布数据显示,2023年,通过落实“坚持伙伴优先”的生态战略,阿里云与遍布中国133个地级市的12000家伙伴一起,服务了超50万家客户。
2023年,阿里云为340余家伙伴提供产品生态集成认证,目前已有1300余个伙伴产品完成了与阿里云产品的兼容适配,以更好地在客户侧落地技术方案;区域合作伙伴集成阿里云的业务额同比增加了28%,65家伙伴面向政务、金融、能源、制造、交通等行业推出100余个联合解决方案;2000家服务伙伴已联合成功交付数万个政企项目。
2023年,阿里云发起“通义千问伙伴计划”。朗新、亚信、用友、数字政通、蓝凌、千方等60余家伙伴加入,借助通义大模型家族的技术,推动大模型行业应用。目前阿里云已向伙伴提供了超1200人天技术专家支持,携手伙伴验证了“通义千问”大模型在多个行业应用,涉及智能问答、文章摘要、文案写作、代码辅助、知识库升级等场景。
来源:阿里云公众号
据最新财报显示,截至2023年12月31日止三个月,云智能集团收入为人民币28066百万元(3953百万美元),相较2022年同期的人民币27364百万元增长3%。收入同比增长主要受阿里巴巴并表业务所驱动。不计来自阿里巴巴并表业务的收入同比下降,主要是由于集团通过减少来自利润率较低的项目式合约类收入以持续提升收入质量所致,然而来自公共云产品及服务的收入同比健康增长。
云智能集团截至2023年12月31日止三个月的经调整息税前利润(税前利润)为人民币2364百万元(333百万美元),相较2022年同期的人民币1269百万元增长86%,主要是由于集团专注于公共云而导致的产品结构改善和运营效率提升所致。
来源:阿里巴巴2023年12月31日止季度业绩公告
未经允许不得转载:CYQY-生活与科技 » 阿里巴巴推出AI图生视频模型EMO