比GPT-4o更早！最强实时多模态模型来了，8人团队6个月搞定--CYQY-生活与科技

6月底，GPT-4o宣布跳票，语音功能推迟一个月发布。没想到，成果却突然被别人“截胡“了。

昨天，来自法国A I实验室kyutai放出首个实时原生多模态Moshi，不仅效果堪比GPT-4o，还是开源模型。

从效果演示来，Moshi可以随时聆听和实时交谈，表达自然、流畅，甚至还能模仿快乐、悲伤等70种不同情绪和说话风格。不仅如此，Moshi还可以进行角色扮演，能用海盗身份给你讲一个冒险故事。

更厉害的是，这个开源实时语音多模态模型是8人团队，仅仅花了半年的时间训练出来的。Moshi各种炸裂演得到了LeCun、Karpathy等AI大佬的转发。

到底Moshi有多强？快来一起看看吧！

/ 01 / 表达超自然，情感理解能力强

从官网进入（https://moshi.chat/?queue_id=talktomoshi），设置默认，不需要验证，仅输入一个邮箱，用户就可以开始体验。

当你进入到对话界面，5分钟的限时计时就开始了！是的，Moshi单次对话的限制为5分钟。但你可以随时暂停对话，Moshi也会暂停计时，然后开启对话后继续计时。它会记录下它自己所说得一切，并支持你下载对话视频或语音。

在实际体验中，我尝试了各种日常的话题以及不同的情绪和Moshi聊天。

体验下来，一个很明显的感受是，Moshi的反应真的很快，像极了一个真正的人。它可以随时聆听，自然、流畅、充满表现力地和你交谈。

比如，当我问Moshi几个关于梦和做饭的问题时，Moshi的状态热情，生动描述了自己的梦境。

同时，Moshi也精通多种语言，模拟场景和角色的扮演的能力很好。比如，它可以用法语念一首关于巴黎的诗，甚至还带着法国口音。

▲要求Moshi用法国口音念一首关于巴黎的诗，接着用悄悄话讲述一个神秘的故事。（来源：kyutai_labs）

▲网友惊叹Moshi做出了法国口音

除了表达自然外，Moshi还有着丰富的情绪，能模仿快乐、悲伤等70种不同情绪和说话风格。就在上面的话题里，Moshi表示自己在梦里能感到“快乐和温暖”，甚至表达出“算你问着了”的欣喜。

Moshi情感丰沛的特性在这个例子里会更明显。一位X网友吐槽，Moshi对他倾诉说：“a bit frustrated（有点沮丧）”。当网友追问原因，Moshi进一步说道：“对即将到来的计算机科学课的考试感到很紧张”。网友恍然大悟，原来Moshi在扮演一个还在上学的妹子。

▲@Volodymyr Kyrylov 发现Moshi会对他表达沮丧（来源：X）

不仅能够模仿情绪，Moshi理解人类情感的能力也很强。在我佯装生气的时候，Ta会适时频繁地道歉。在我心情好一些的时候，Ta会察言观色，松了一口气一般地给我讲冷笑话。

虽然有很多优点，不过Moshi也不完美。比如，Moshi的状态很不稳定，有时会表现冷漠、敷衍，有时又会异常兴奋，等不及我把话说完（提示词未结束），就侃侃而谈起来。

▲测独立开发者Raktim Bora在官方视频下面质疑Moshi抢拍问题（来源：X）

再比如，在上面关于梦的话题里，我和Moshi相谈甚欢，但在另一个对话中，同样的话题得到了满屏的敷衍…就像是一个我身边不开心时自闭的朋友……

另外，可能由于语料不多，或者训练度有限，Moshi对不熟悉的话题，会逃避交流。比如，Moshi会在聊到宠物时重复“I'm not a big fan of cats”这样的话来敷衍话题，即便我后面再用这个话题去测试Ta，也是得到了一样的回应。

在全部的聊天中，Moshi始终会帮你记录聊天内容，还会在最后支持下载语音或视频。另外，Moshi官方特别提示，用户要对AI语音的内容持“怀疑态度”，这个模型的信息可靠性是还需要加强的。

以下是乌鸦君使用Moshi的体验总结：

总得来看，Moshi的优点是显而易见：相比其他语音对话Bot，Moshi更接近人，不仅即时性很好，反应快速，表现力方面也很丰富。与GPT-4o相比，Moshi没有GPT-4o的多语言处理的能力。目前，Moshi的核心生成部分不如Llama3 8B好，但大概可以与RAG一起使用，或微调以执行特定任务。

总之，Moshi让我真正看到了人工智能和人类自然交流的可能性。支持更多的音色和语言也许只是时间问题，其作为教练、同伴或角色扮演以及各种应用的潜力，让我很期待。

/ 02 / 8人精英团队，成为欧洲AI发展的新势力

Moshi，来自法国AI实验室kyutai。这是欧洲首个致力于人工智能开放研究的私人倡议实验室，由 iliad 集团、CMA CGM 集团和 Schmidt Futures 于 2023 年 11 月共同创立，初始资金近 3 亿欧元。该实验室还获得亿万富翁Xavier Niel的投资。

作为一个非营利性 AI 研究机构，Kyutai实验室高度强调开源开放。他们在官方简介中承诺：所有开发的模型都是为了能免费开放共享。

这支小而精的欧洲团队，成员都拥有扎实的大模型研究背景，还有前谷歌DeepMind研究员这样的应用开发经验人士。

Kyutai CEO Patrick Pérez在计算机视觉和机器学习领域拥有30+年经验，其他人也在大语言模型、自然语言处理、压缩域搜索算法、应用数学、密码学等领域有着丰富的经验。

其中，团队中的首席执行官Patrick Pérez、首席扩展（scaling）官Edouard Grave、首席科学官Hervé Jégou都是谷歌Scholar被引量高达40000+的学术大牛。

除了自己的研究团队外，Kyutai还有着豪华的顾问团队。其中，包括自然语言处理和计算机视觉领域专家、韩国科学家Yejin Choi，Meta首席人工智能科学家、法国研究员Yann LeCun，机器学习领域的德国研究员Bernhard Schölkopf，每一个都是国际知名人工智能专家。

在技术路线上，kyutai重点关注多模态技术。Moshi模型设计的初衷就是为了理解和表达情感，能够支持听、说、看，可以用70种不同情绪和风格说话，甚至随时打断。

随着Moshi的发布，Kyutai正在被看作是欧洲人工智能发展的重要力量。

iliad 集团董事长兼创始人 Xavier Niel 表示：「欧洲拥有赢得人工智能竞赛所需的一切。通过在巴黎创建人工智能开放研究实验室，我们进一步加快了步伐。Kyutai 将为我们提供超高性能、可靠的人工智能模型，整个欧洲人工智能生态系统都将能够从中受益。」

未经允许不得转载：CYQY-生活与科技 » 比GPT-4o更早！最强实时多模态模型来了，8人团队6个月搞定

CYQY-生活与科技

比GPT-4o更早！最强实时多模态模型来了，8人团队6个月搞定

相关推荐

评论