1. e-works数字化企业网
  2. 新闻
  3. 资讯

浪潮信息Lance SUN:高效数据编排,加速数据在AI场景释放潜能

 
2024年07月03日 来源:浪潮信息
关键字:浪潮信息  

AIGC作为当下最火的技术话题,其业务流程涉及到数据的采集、处理、训练、推理和归档五个阶段,每个阶段都面临着不同的存储需求和挑战。随着数据量的爆炸性增长,特别是随着多模态数据的快速增长,对存储系统的扩展性和服务兼容性也提出了新的挑战。

在2024年数据基础设施技术峰会上,浪潮信息分布式存储产品线架构师Lance Sun博士发表了题目为"高效数据编排,加速释放数据潜能"的主旨演讲,详细讨论了高效数据编排对于解决上述挑战,并释放数据潜能的重要性。

AIGC带来的存储挑战凸显了数据的重要性

首先,Lance Sun博士详细介绍了AIGC对存储提出的需求和挑战,让我们对AIGC的业务流程和对数据存储的需求有了更深入的认识。

第一个是巨量多模态数据的挑战。很多大语言模型都采用了来自Common Crawl的数据集,这个组织在过去17年已经采集了2500亿网页,现在还在持续收集更多。IDC预测,到2025年,全球数据总量将超过175ZB,这种增长对存储系统的多样性和扩展性带来了挑战。

第二个挑战是对超大读写带宽的需求。在训练阶段,checkpoint的管理是关键,良好的存储性能应在12分钟内完成checkpoint的读写操作,确保不拖慢整个训练过程。同时,由于GPU成本高昂,更高的存储性能可以减少显卡的等待时间,减少资源浪费。

第三个挑战是对于读写IOPS的更高需求。千亿级文件的快速访问对IOPS有着极高要求,在某些采用shuffle洗牌策略的训练过程,如果IOPS性能不够,会导致元数据服务器产生大量的通信阻塞,同时会造成GPU集群等待,影响训练效率,造成资源浪费。

第四个挑战在于数据全生命周期管理。在数据清洗和标注算法日益发展的今天,数据作为企业的核心资产,企业需要对数据进行长期保存。于是,如何将数据以较低的成本安全存储起来,也成为更重要的课题。

为了说明高质量数据的重要性,Lance Sun博士还提到了ImageNet数据集。作为高质量的数据集,它极大地推动了深度学习算法的发展。2012年,AlexNet在ImageNet挑战赛上取得成功,这不仅验证了深度学习模型处理复杂视觉任务的能力,也激发了后续研究和多种新算法的产生。

由此可见,数据的采集和高质量的数据清洗,对AI的发展至关重要的。过去十多年的时间里,语言类模型的数据集规模,模型参数规模,AI芯片计算能力和数据存储需求都发生了显著变化。

AIGC在数据归集面临的挑战与浪潮信息的解决之道

在数据存储方面,随着数据集规模和多样性增加,越发依赖更大规模的存储服务器集群。Lance Sun博士介绍称,很多传统行业都积累了大量数据,这些数据需要在不同的存储系统间进行高效的数据流转以支持AI和大数据分析,这在现有的存储架构中造成了数据流动的效率问题。

事实上,多数据中心和异构存储环境中数据迁移面临很多挑战,对此,Lance Sun博士总结了三点:

第一点,数据访问分散。数据迁移的过程对用户来说是不透明的,严重依赖第三方迁移软件,而且受网络波动和存储性能的影响,容易导致数据迁移时间过长,增加操作的不确定性和复杂性。

第二点,空间和时间成本的浪费。迁移过程常用纠删或副本机制来提高可靠性,但这会导致时间和空间成本大幅增加。此外,这一过程还严重依赖于第三方迁移软件的性能,不同存储平台的使用容量差异可能导致数据副本迁移时出现容量不均衡问题。

第三点,运维复杂性增加。由于不同存储产品的特性差异,使得存储厂商各自发展出不同的运维管理系统,数据的频繁迁移或长时间迁移导致数据管理混乱,导致运维时间和成本显著增加。

为了应对多数据中心和异构存储环境中数据管理和迁移挑战,浪潮信息存储进行了大量工作,基于AS13000构建了一套全局数据管理平台。

在全局数据管理平台的最上层,通过一个统一的全局命名空间提供用户视角的完全统一,确保所有数据都可以通过一个统一的入口进行访问和管理,极大地简化了数据操作流程。

第二个层面,系统支持多种标准协议接口,包括Linux的NFS、对象存储的S3、大数据的HDFS、容器化的CSI接口以及Windows环境下的SMB协议。这样的设计使得平台能够广泛兼容各种应用和环境,满足不同场景的需求。

最后一层,AS13000引入了智能数据编排和缓存系统。智能数据编排引擎利用人工智能算法自动让数据在热、温、冷存储之间的流转,优化数据存储效率。而高效的缓存系统可以为短期内频繁使用的极热数据提供快速访问能力,加速数据的流转。

最终,用户可以基于AS13000的全局数据管理平台实现数据在任何地点,任何时间以任何类型可视可管可流动。

Lance Sun博士还指出了市场上一些方案的不足。比如,一些方案在数据采集阶段使用了混闪对象存储,而在训练阶段使用全闪存储技术。然而,数据在两个存储集群的流转非常低效,数迁移过程中,经常由于网络波动造成文件断传。

相比之下,AS13000由于在一套系统内引入了多协议融合互通技术,直接省去了数据迁移的过程,大大提高了训练数据的准备效率,以确保数据在训练和处理阶段的高效率和低延迟访问。 

AIGC存储的技术展望

AIGC技术的影响力日益扩大,各大存储厂商对此高度重视,存储系统的创新和演进均将AIGC作为核心考量。在演讲的最后,Lance Sun博士详细介绍了浪潮信息存储在AIGC领域的未来发展关键方向和技术动向,并表示浪潮存储将持续深度融入AI生态系统。

在行业技术方面,GPU直连存储技术已在众多文件系统层面广泛应用,其在大文件读写方面的性能表现尤为出色。浪潮信息与英伟达及业界厂商紧密合作,致力于推动完整技术体系和标准的落地。

在行业基准评测方面,浪潮信息积极参与权威的AI性能测试基准—MLperf Storage评测,并在多项负载性能评测中表现优异,帮助企业选择最适用于AI场景的存储系统。

存储的安全问题同样不容忽视。英伟达在2024年的GTC大会上提到包括加密计算在内的多种安全技术,而在存储层面,同样需要提供强有力的数据保护措施。浪潮信息存储正在多租户权限隔离、防勒索等数据保护技术领域进行深入探索。

谈到未来发展,Lance Sun博士表示,存储性能的持续优化是浪潮信息存储的核心目标。浪潮信息将继续通过软硬件结合的持续创新,力求在智算产业和AI产业中实现快速落地,推动整个行业的进步。

2024年,AIGC依然是最热技术话题,其迅猛的发展速度和广阔的应用前景吸引了众多关注和创新力量。凭借在数据存储领域的持续创新和深耕,浪潮信息正站在这场技术革新的前沿。

责任编辑:王力
您可以:
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• PTC:管理嵌入式软件的开发
• Allegro与英诺赛科联合推出全GaN参考设计, 赋...
• 施耐德电气新一代Galaxy PX UPS亮相CDCC
• 联想中国交出第二财季成绩单:个人AI业务持续...
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产...
• Fortinet 发布安全人工智能数据中心解决方案
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI...
• 智算时代,企业需要怎样的AI基础设施?
• 艾默生公布 2025 财年第四季度和全年业绩,并...
• 和利时智能仪表与XMagital®智能系统解决方案交...
• 2025年第十六届德国工业4.0考察正式启航
文章推荐
• 融资热 VS 倒闭潮:人形机器人产业发展“冷思...
• 优必选 VS Figure AI:一场“造假”风波,揭开...
• “超级生产团队”上线:懂生产,更懂怎么干
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 国际芯片大厂的战略新锚点:机器人与物理AI
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看