1. e-works数字化企业网
  2. 新闻
  3. 资讯

IBM发布基于watsonx.data和Storage Scale的加速AI平台

 
2024年09月04日 来源:IBM
关键字:IBM  watsonx.data  Storage Scale  

IBM将数据湖仓与并行文件系统的功能结合,同时借助其watsonx.data及Storage Scale产品构建起可扩展、基于机器学习的AI处理与分析数据存储平台。

IBM声称,这套方案通过GDS(GPU直接存储)与英伟达GPU实现了极致的AI性能,可以更快完成生成式AI模型的训练。该方案支持多协议,可实现更简单的工作流程,为分析及AI工作负载提供统一的数据平台,且系统还支持使用客户专有 数据实现检索增强生成(RAG)。

蓝色巨人的watsonx.data是一套数据湖仓,其将数据湖的丰富功能(即基于商用服务器的横向扩展架构,实现了对大量结构化及非结构化数据的存储和处理能力)与数据仓库的卓越性能融为一体。其支持Apache Iceberg开放表格式,使得多种不同处理引擎得以同时访问相同的数据源。

Storage Scale是一种并行且横向扩展的文件系统,早期名称为GPFS。它被用作watsonx.data的底层存储方案,在文件访问覆盖层之下提供对象存储能力。Storage Scale v5.2.1还拥有非容器化的高性能S3协议服务,使其在功能完备性方面更进了一步。

如何合而为一

根据IBM发布的图表,黄框部分具体展示了更新后的软件组件构成:

其中包含彼此分享的独立计算层与存储层。在计算方面,watsonx.data用例采取红帽OpenShift容器集群基础,其中包含Presto与Spark。Presto使用分布式SQL查询引擎以提供数据湖分析功能,而Spark则属于内存内的大数据处理与分析资源。

该层中还包含负责提供共享元数据服务的Hive Metastore以及一项Milvus向量数据库采取行动。Milvus用于访问客户驻留在Storage Scale上的潜在大规模数据集,借此实现检索增强生成(RAG)。

独立的存储基础设施当中则包含三大主要元素:用于保存数据的Storage Scale文件系统集群;用于实现存储抽象及加速机制的Active File Management(AFM);以及用于高性能对象访问的S3数据访问协议服务。

其中S3服务将对象存储桶暴露给watsonx.data,以便附加至Presto或Spark等查询引擎。其中S3对象映射至文件,存储桶映射至Storage Scale内的目录,反之亦然。

S3存储桶可以是存储层内的本地存储,也可以由Storage Scale通过外部对象存储进行缓存(借此实现加速),这些对象存储可能分散在各种云、数据中心及其他位置。在任一情况下,多个Spark及Presto引擎实例均可使用S3协议接入Storage Scale层以访问各存储桶内的数据。

AFM还具备本地缓存功能,并支持跨集群共享数据,能够在文件集层次上对远程S3存储桶进行虚拟化。它在Storage Scale集群中实现了全局命名空间,并可在该命名空间当中包含NFS数据源。远程存储桶将在Storage Scale文件系统下显示为本地存储桶,且位于公共存储命名空间之下,因此无需额外往来复制数据。

远程S3存储桶的虚拟化依赖于基于NooBaa开源软件的Storage Scale 高性能S3方案。这是一款用于x86服务器及存储的对象存储软件,以类似S3的云服务形式呈现。NooBaa于2018年被红帽公司收购,负责在混合多云环境中对存储基础设施进行抽象处理。它还提供数据存储服务管理,红帽将其作为OpenShift Data Foundation(ODF)产品集中的一部分。IBM于2019年收购了红帽公司,并将ODF与原有Spectrum Scale及Spectrum Protect数据保护容器化版本一道,添加至其当时的Spectrum Fusion产品线(现已更名为Storage Fusion)当中。

如今,NooBaa作为一个可定制的动态对象数据网关,可配合任意存储资源(包括S3、GCS、Azure Blob、文件系统等)提供缓存、分层、镜像、重复数据删除、加密及压缩等数据服务。

Storage Scale的高性能对象S3服务针对多协议数据访问进行了优化,因此取代了Storage Scale中早期基于Swift的对象S3及容器化S3服务实现。Storage Scale中的集群导出服务(CES)设施则通过CES节点管理并实现高可用性。

多层架构

IBM表示,Storage Scale存储可划分为多个性能层次,借以优化成本及性能。例如可以设一个用于高频数据的高性能层次,以及一个用于长期存储及归档的经济型层次或磁带存储,同时配合跨层次间的数据自动放置策略,由此为实际应用程序提供无缝且透明的分层支持。

这套将watsonx.data与Storage Scale合而为一的系统,提供了一个统一且彼此独立的计算与存储平台,能够在平台之上运行用于训练和推理的AI应用程序。这就使得IBM成为整套必要软件的单一来源,对于很多企业客户来说能够大大降低管理成本和复杂度。目前戴尔、HPE、联想、NetApp、MinIO和Pure等厂商纷纷推出自己的AI数据平台方案,VAST Data也在积极筹备相应的数据引擎产品。

责任编辑:王力
您可以:
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• PTC:管理嵌入式软件的开发
• Allegro与英诺赛科联合推出全GaN参考设计, 赋...
• 施耐德电气新一代Galaxy PX UPS亮相CDCC
• 联想中国交出第二财季成绩单:个人AI业务持续...
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产...
• Fortinet 发布安全人工智能数据中心解决方案
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI...
• 智算时代,企业需要怎样的AI基础设施?
• 艾默生公布 2025 财年第四季度和全年业绩,并...
• 和利时智能仪表与XMagital®智能系统解决方案交...
• 2025年第十六届德国工业4.0考察正式启航
文章推荐
• 融资热 VS 倒闭潮:人形机器人产业发展“冷思...
• 优必选 VS Figure AI:一场“造假”风波,揭开...
• “超级生产团队”上线:懂生产,更懂怎么干
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 国际芯片大厂的战略新锚点:机器人与物理AI
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看