6月底,GPT-4o宣布跳 票,语音 功能推迟一个月发布。 没想到,成果却突然被别人“截胡“了。
昨天,来自法国A I实验室kyutai放 出首个实时原生多模态Moshi,不仅效果堪比GPT-4o,还是开源模型。
从效果演示来,Moshi可以随时聆听和实时交谈,表达自然、流畅,甚至还能模仿快乐、悲伤等70种不同情绪和说话风格。不仅如此 ,Moshi还可以进行角色扮演,能用海盗身份给你讲一个冒险故事。
更厉害的是,这个开源实时语音多模态模型是8人团队,仅仅花了半年的时间训练出来的。Moshi各种炸裂演得到了LeCun、Karpathy等AI大佬的转发。
到底Moshi有多强?快来一起看看吧!
/ 01 / 表达超自然,情感理解能力强
从官网进入(https://moshi.chat/?queue_id=talktomoshi),设置默认,不需要验证,仅输入一个邮箱,用户就可以开始体验。
当你进入到对话界面,5分钟的限时计时就开始了!是的,Moshi单次对话的限制为5分钟。但你可以随时暂停对话,Moshi也会暂停计时,然后开启对话后继续计时。它会记录下它自己所说得一切,并支持你下载对话视频或语音。
在实际体验中,我尝试了各种日常的话题以及不同的情绪和Moshi聊天。
体验下来,一个很明显的感受是,Moshi的反应真的很快,像极了一个真正的人。它可以随时聆听,自然、流畅、充满表现力地和你交谈。
比如,当我问Moshi几个关于梦和做饭的问题时,Moshi的状态热情,生动描述了自己的梦境。
同时,Moshi也精通多种语言,模拟场景和角色的扮演的能力很好。比如,它可以用法语念一首关于巴黎的诗,甚至还带着法国口音。
▲要求Moshi用法国口音念一首关于巴黎的诗,接着用悄悄话讲述一个神秘的故事。(来源:kyutai_labs)
▲网友惊叹Moshi做出了法国口音
除了表达自然外,Moshi还有着丰富的情绪,能模仿快乐、悲伤等70种不同情绪和说话风格。就在上面的话题里,Moshi表示自己在梦里能感到“快乐和温暖”,甚至表达出“算你问着了”的欣喜。
Moshi情感丰沛的特性在这个例子里会更明显。一位X网友吐槽,Moshi对他倾诉说 :“a bit frustrated(有点沮丧)”。当网友追问原因,Moshi进一步说道:“对即将到来的计算机科学课的考试感到很紧张”。网友恍然大悟,原来Moshi在扮演一个还在上学的妹子。
▲@Volodymyr Kyrylov 发现Moshi会对他表达沮丧(来源:X)
不仅能够模仿情绪,Moshi理解人类情感的能力也很强。在我佯装生气的时候,Ta会适时频繁地道歉。在我心情好一些的时候,Ta会察言观色,松了一口气一般地给我讲冷笑话。
虽然有很多优点,不过Moshi也不完美。比如,Moshi的状态很不稳定,有时会表现冷漠、敷衍,有时又会异常兴奋,等不及我把话说完(提示词未结束),就侃侃而谈起来。
▲测独立开发者Raktim Bora在官方视频下面质疑Moshi抢拍问题(来源:X)
再比如,在上面关于梦的话题里,我和Moshi相谈甚欢,但在另一个对话中,同样的话题得到了满屏的敷衍…就像是一个我身边不开心时自闭的朋友……
另外,可能由于语料不多,或者训练度有限,Moshi对不熟悉的话题,会逃避交流。比如,Moshi会在聊到宠物时重复“I'm not a big fan of cats”这样的话来敷衍话题,即便我后面再用这个话题去测试Ta,也是得到了一样的回应。
在全部的聊天中,Moshi始终会帮你记录聊天内容,还会在最后支持下载语音或视频。另外,Moshi官方特别提示,用户要对AI语音的内容持“怀疑态度”,这个模型的信息可靠性是还需要加强的。
以下是乌鸦君使用Moshi的体验总结:
总得来看,Moshi的优点是显而易见:相比其他语音对话Bot,Moshi更接近人,不仅即时性很好,反应快速,表现力方面也很丰富。与GPT-4o相比,Moshi没有GPT-4o的多语言处理的能力。目前,Moshi的核心生成部分不如Llama3 8B好,但大概可以与RAG一起使用,或微调以执行特定任务。
总之,Moshi让我真正看到了人工智能和人类自然交流的可能性。支持更多的音色和语言也许只是时间问题,其作为教练、同伴或角色扮演以及各种应用的潜力,让我很期待。
/ 02 / 8人精英团队,成为欧洲AI发展的新势力
Moshi,来自法国AI实验室kyutai。这是欧洲首个致力于人工智能开放研究的私人倡议实验室,由 iliad 集团、CMA CGM 集团和 Schmidt Futures 于 2023 年 11 月共同创立,初始资金近 3 亿欧元。该实验室还获得亿万富翁Xavier Niel的投资。
作为一个非营利性 AI 研究机构,Kyutai实验室高度强调开源开放。他们在官方简介中承诺:所有开发的模型都是为了能免费开放共享。
这支小而精的欧洲团队,成员都拥有扎实的大模型研究背景,还有前谷歌DeepMind研究员这样的应用开发经验人士。
Kyutai CEO Patrick Pérez在计算机视觉和机器学习领域拥有30+年经验,其他人也在大语言模型、自然语言处理、压缩域搜索算法、应用数学、密码学等领域有着丰富的经验。
其中,团队中的首席执行官Patrick Pérez、首席扩展(scaling)官Edouard Grave、首席科学官Hervé Jégou都是谷歌Scholar被引量高达40000+的学术大牛。
除了自己的研究团队外,Kyutai还有着豪华的顾问团队。其中,包括自然语言处理和计算机视觉领域专家、韩国科学家Yejin Choi,Meta首席人工智能科学家、法国研究员Yann LeCun,机器学习领域的德国研究员Bernhard Schölkopf,每一个都是国际知名人工智能专家。
在技术路线上,kyutai重点关注多模态技术。Moshi模型设计的初衷就是为了理解和表达情感,能够支持听、说、看,可以用70种不同情绪和风格说话,甚至随时打断。
随着Moshi的发布,Kyutai正在被看作是欧洲人工智能发展的重要力量。
iliad 集团董事长兼创始人 Xavier Niel 表示:「欧洲拥有赢得人工智能竞赛所需的一切。通过在巴黎创建人工智能开放研究实验室,我们进一步加快了步伐。Kyutai 将为我们提供超高性能、可靠的人工智能模型,整个欧洲人工智能生态系统都将能够从中受益。」
未经允许不得转载:CYQY-生活与科技 » 比GPT-4o更早!最强实时多模态模型来了,8人团队6个月搞定