1. e-works数字化企业网
  2. 新闻
  3. 资讯

信通院曹峰:数据赋能企业“AI+”发展

2025年06月12日 来源:中国信通院
关键字:数据  AI+  

随着人工智能大模型的不断涌现,“以数据为中心的人工智能”(Data-centric AI)越来越成为行业共识。数据作为新的生产要素,真正成为人工智能的“石油”,有效赋能企业“AI+”发展。中国信通院人工智能研究所平台与工程化部主任曹峰围绕企业推动 “AI+” 发展中数据的核心价值、高质量数据集构建路径及企业“AI+”发展中的数据问题破解策略等展开深度解读。

企业推动“AI+”发展中数据的重要性

一是数据成为人工智能发展的核心驱动要素。80%的高质量数据与20%的模型训练构成了更好的模型。DeepSeek V3等主流基座大模型的训练阶段均使用了10万亿token以上、经过严格清洗和标注的高质量数据。通用人工智能对数据的需求量还将持续级数增长,训练数据的数量和质量对模型能力的决定性作用越来越高。

二是数据成为模型场景部署和深度应用的基础。Deep Seep R1模型开源以来,包括44家央企在内的200多家企业完成了DeepSeek R1模型的适配和集成部署。在这个过程中,模型与场景的适配过程需要使用高质量行业数据进行监督微调或知识增强,才能适应行业应用需求。

三是企业构建“AI+”发展的先决条件。企业是推动AI+应用的主体,是推动高价值行业应用场景落地关键力量。拥有海量高质量数据积累的企业,能够率先在垂直行业训练出性能优异的模型,推动人工智能的行业应用。同时,在大模型应用、研发迭代过程中采集到更多高质量数据集资源,形成“数据飞轮”,进一步提升模型性能,进而带动智能化水平的持续提升。

企业推动“AI+”发展中构建高质量数据集的方法

什么是高质量数据集?我们总结,高质量数据集应该具备“三高”的特征:一是高价值应用,高质量数据集面向高价值的领域场景,带来更高的收益。二是高知识密度,高质量数据集应包含更多的专业知识和技能,具备多学科融合特征。三是高技术含量,通过智能化、人机协同标注和合成数据等技术显著提升数据质量。

企业在推动高质量数据集建设中存在以下几方面问题:

一是目标定位模糊化。企业经常陷入“为数据而数据”的误区,智能场景需求与数据集建设目标脱节,未能将数据工程目标与核心业务指标深度绑定,导致数据价值难以转化为模型性能提升,未能形成“数据采集-模型训练-业务反馈-数据迭代”的闭环优化机制。

二是实施路径碎片化。从数据采集到模型训练的全链路缺乏系统性规划和设计,无法形成体系化数据集构建和维护机制,造成多源异构数据标准难统一、跨部门跨层级难协作,致使清洗、标注等数据处理成本激增。

三是技术底座薄弱化。缺乏适配行业特性的工具链,自动化程度低,人力依赖严重,工程落地效率受阻,行业特性适配工具链的缺失等问题导致现有数据处理技术难以应对复杂人工智能场景需求。

破解企业“AI+”发展中的数据问题

面向人工智能的新一代数据工程,涵盖数据采集、预处理、标注、评估、合成与共享等全生命周期,既强调数据的规模与多样性,也重视质量、有效性与合规性。

一是高水平数据标注提升数据集供给能力。自动化与智能化标注工具创新成为焦点,多模态数据标注技术的融合逐渐成为趋势,持续学习与反馈机制引入促进数据标注质量和效率双重提升。中国信通院作为国家数据局人工智能专班组长单位,全力支撑国家级数据标注基地建设工作,推动企业数据标注能力提升。

二是评估和反馈机制推动数据质量提升。质量评估与反馈机制深度融合,多模态数据质量评估框架快速发展,动态数据质量监控体系逐步完善。中国信通院共推出5项人工智能数据相关行业标准,搭建国内首个人工智能全周期数据工程评估体系。目前,已正式发布人工智能数据集质量评估体系(ADAQ)。目前,招商局集团、中国建筑集团、中国物流集团已经通过ADAQ质量评估,部分央企正在洽谈后续的深入合作。

三是积极探索使用合成数据等新技术解决大模型数据瓶颈。合成数据在增加数据量、提高数据质量、增强数据多样性、保护隐私和安全等方面,形成了对大模型训练数据的有效补充,并已经被应用于自动驾驶和金融服务领域。中国信通院编制形成《人工智能合成数据生成和管理能力要求》行业标准,面向数据服务方提供人工智能合成数据生产和应用能力建设指导,同时也为数据应用方和需求方提供选型规范。

数据赋能企业“AI+”发展,将逐步形成“数据-算法-应用”的生态协同,以标准化体系破解跨域协作难题,以智能化工具提升数据生产效能,以合规可信框架保障数据要素安全流通。高质量数据集不仅是技术竞争的 “硬实力”,更将成为产业升级的 “催化剂”,为“人工智能+”场景落地开辟无限可能,助力我国在全球智能产业变革中抢占先机、引领未来。

责任编辑:王力
您可以:
广告区域
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• 以数智之力构建智慧集成供应链,第十七届中国...
• SAP商业AI获乌镇峰会精品案例奖
• 施耐德电气“电力+冷却”双创新方案亮相进博会
• 八赴进博会 | ABB电气多款新品首发,智启零碳...
• 持续增长 广受认可 | Fortinet发布2025年第三...
• Brother于第八届进博会举办ESG交流活动
• 浪潮信息刘军:AI超节点的商业价值核心是Toke...
• 斯凯孚亮相第八届进博会 推出中国首款近零碳轴...
• 打造数字化供应链,专业实训班在厦门成功举办
• ABB低压传动 50 周年:以创新与节能增效推动可...
• 科德宝进博发布全新品牌中文标识,多线布局本...
• 戴尔科技集团亮相第八届中国国际进口博览会
文章推荐
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人
• 聊聊MES生产绩效的设计与应用
• 工装夹具全揭秘:让制造企业效率翻15倍,成本...
• 供应链降本的三层境界
• 高通收购Arduino,物联网与机器人开发生态要变...

系列微信

数字化企业网
PLM之神
制信科技
MES百科
工业自动化洞察
智能制造IM
智能装备观察
智能工厂前线
工业机器人洞察
工业创新
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看