1. e-works数字化企业网
  2. 新闻
  3. 资讯

SuperCLUE最新评测:山海大模型再创佳绩,稳居全球一梯队

 
2024年07月12日 来源:极客网
关键字:SuperCLUE  山海大模型  

7月9日,SuperCLUE发布《中文大模型基准测评2024上半年报告》,报告选取国内外有代表性的33个大模型在6月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。

报告显示,云知声山海大模型在本次半年度评测中取得总分72的优异成绩,与360gpt2-pro、字节跳动豆包、月之暗面Kimi、百川智能Baichuan4并列国内大模型第四,稳居全球大模型第一梯队。

https://img2.danews.cc/upload/images/20240711/8f051ea28f2baec7024c263ab7129f73.png

SuperCLUE作为国内权威通用大模型综合性测评基准,其前身可追溯至第三方中文语言理解评估基准CLUE(The Chinese Language Understanding Evaluation)。自2019年成立以来,CLUE基准一直致力于提供科学、客观、中立的语言模型评测,其先后推出了CLUE、FewCLUE、KgCLUE、DataCLUE等多个被广泛认可的评估标准。根据CLUE多年测评经验,SuperCLUE基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。

作为一个完全独立的第三方评测机构,SuperCLUE采用自动化评测技术,有效消除人为因素带来的不确定性,确保提供无偏倚的客观评测结果。不同于传统测评通过选择题形式的测评,SuperCLUE纳入开放主观问题的测评,通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型的应用场景,真实有效考察模型生成能力。与此同时,SuperCLUE根据全球的大模型技术发展趋势,不断升级迭代测评体系、测评维度和方法,以保证尽可能精准量化大模型的技术演进程度。

为进一步真实反映大模型能力,本次通用测评采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成:理科任务分为计算、逻辑推理、代码测评集;文科任务分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集;Hard任务聚焦精确指令遵循测评集,未来将陆续推出复杂多步推理和高难度问题解决等评测。

https://img2.danews.cc/upload/images/20240711/a7bead277220149a6d756f080a604b67.png

从代表通用能力的一级总分来看,山海大模型得分72,与360gpt2-pro、字节跳动豆包、月之暗面Kimi、百川智能Baichuan4并列国内大模型第四,位居全球大模型第一梯队。

具体到二级维度得分,山海大模型在理科和文科领域均表现优异——在理科能力方面,山海大模型以76分的高分紧随GPT-4o、GPT-4-Turbo-0409之后,力压一众国内大模型,并列排名国内第一;文科能力以75分的成绩并列国内第二,实力同样不容小觑。

https://img2.danews.cc/upload/images/20240711/243247cce88fd13caec28e555e471638.png

https://img2.danews.cc/upload/images/20240711/88e9cebcaac9d74821488df87e4978d2.png

在SuperCLUE基于基础能力和应用能力两个维度构建的模型象限图中,山海大模型被定位为“卓越领导者”。这一分类反映了山海大模型在基础和场景应用能力上均达到了领先水平,持续引领国内大模型技术发展和创新。

https://img2.danews.cc/upload/images/20240711/ba25026826be352287ca8e96d6d71214.png

此外,与GPT4-Turbo-0409的对战胜率统计数据显示,山海胜率为17.67%,和率为65.37%,位列国内大模型第五,整体实力依旧不俗。

https://img2.danews.cc/upload/images/20240711/1370a9329e98fad1c4c5f28310b3b061.png

自2023年5月问世以来,山海大模型已相继在C-Eval全球大模型综合性评测、OpenCompass大模型评测、MedBench评测等多个权威评测中屡创佳绩,充分展现出业界一流的通用能力和领先于世界的行业大模型能力。

正如报告所言,随着技术进步和应用场景拓展,2024年下半年国内外大模型市场竞争将持续加剧,推动技术创新和产业升级。接下来,云知声将继续保持大模型能力稳步提升,以山海为抓手,在产业侧实现加速落地,致力成为真正助力各行各业的“新质生产力”。

责任编辑:王力
您可以:
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• PTC:管理嵌入式软件的开发
• Allegro与英诺赛科联合推出全GaN参考设计, 赋...
• 施耐德电气新一代Galaxy PX UPS亮相CDCC
• 联想中国交出第二财季成绩单:个人AI业务持续...
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产...
• Fortinet 发布安全人工智能数据中心解决方案
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI...
• 智算时代,企业需要怎样的AI基础设施?
• 艾默生公布 2025 财年第四季度和全年业绩,并...
• 和利时智能仪表与XMagital®智能系统解决方案交...
• 2025年第十六届德国工业4.0考察正式启航
文章推荐
• 融资热 VS 倒闭潮:人形机器人产业发展“冷思...
• 优必选 VS Figure AI:一场“造假”风波,揭开...
• “超级生产团队”上线:懂生产,更懂怎么干
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 国际芯片大厂的战略新锚点:机器人与物理AI
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看