CYQY-生活与科技

你创作的,就是头条
一起分享生活指南
首页 > 科技

蚂蚁集团联合北京大学发布大语言模型评测基准

11月2日消息,蚂蚁集团联合北京大学发布了首个面向DevOps领域的大模型评测基准DevOps-Eval,以帮助开发者跟踪DevOps领域大模型的进展,并了解各个DevOps领域大模型的优势与不足。

据了解,大语言模型在各类NLP下游任务上取得了显著进展。然而在DevOps领域,由于缺乏专门用于大型语言模型的评测基准,在有效评估和比较该领域大语言模型的能力方面存在严重不足,而DevOps-Eval的发布正是为解决这一不足。

来源:CodeFuse公众号

DevOps-Eval根据DevOps全流程进行划分,包含计划、编码、构建、测试、发布、部署、运维和监控这8个类别,包含4850道选择题。此外,DevOps-Eval还特别对运维/监控类别做了细分,添加日志解析、时序异常检测、时序分类和根因分析等常见的AIOps任务。由于DevOps-Eval根据场景对评测样本做了详尽的细分,因此除了DevOps领域大模型,也方便对特定领域大模型进行评测,如AIOps领域等。

目前,第一期的评测榜单已经,首批评测大模型包含OpsGpt、Qwen、Baichuan、Internlm等开源大语言模型。

蚂蚁集团表示,DevOps-Eval相关论文也在紧锣密鼓地撰写中。此外,蚂蚁集团称,“欢迎相关从业者一起来共建DevOps-Eval项目,持续丰富DevOps领域评测题目或大模型,我们也会定期更新题库和评测榜单。”

数据细分类别 来源:CodeFuse公众号

据了解,9月8日,蚂蚁集团在外滩大会上首次公开蚂蚁金融大模型“1+1+2”矩阵:一个金融大模型,一个Fin-Eval金融AI任务评测集,个人金融助理支小宝2.0和专家业务助理支小助。

其中,蚂蚁金融大模型基于蚂蚁自研基础大模型,针对金融产业深度定制,底层算力集群达到万卡规模。蚂蚁金融大模型聚焦真实的金融场景需求,在“认知、生成、专业知识、专业逻辑、合规性”五大维度28类金融专属任务中表现突出,目前已在蚂蚁集团的财富、保险平台上全面内测。

来源:蚂蚁集团公众号

未经允许不得转载:CYQY-生活与科技 » 蚂蚁集团联合北京大学发布大语言模型评测基准

分享到:更多 ()
来源: 编辑:柏纳

相关推荐

评论

留言/评论 共有条点评
昵称:
验证码:
匿名发表