数字化转型趋势下,企业对于敏捷性、可扩展性、管理便捷性的需求不断提升,传统IT部署模式愈发不能满足企业业务创新的需求。而超融合技术的不断发展,为这道难题提供了另一种解决方案。
在青云科技云易捷产品经理曹振看来,“普通的超融合正向着超融合云系统地演进,进而延伸到全栈私有云的产品形态。”可以说,超融合已从计算与存储的简单融合向着智能异构、全融合的方向发展演进。
曹振的观察与Gartner最新发布2024年《全球全栈超融合软件市场指南》中的观点不谋而合——全栈超融合软件已经从超融合解决方案市场中崛起。
实际上,超融合市场经过长期发展,在交付形式上出现了明显的两极分化:一方面,超融合集成系统依旧由硬件提供商主导,而另一方面,超融合软件提供商利用超融合“软硬件解耦”的特性,推出并主导了纯软件的交付形式。
一定程度上,IT需求的释放和新技术的融合,再叠加应用场景的拓宽,推动着中国超融合市场的稳健增长。
据IDC发布的《中国软件定义存储(SDS)及超融合存储系统(HCI)市场季度跟踪报告,2024年第一季度》预估,2024年第一季度中国超融合整体市场规模超过27亿人民币,实现了9.1%的增长;预计未来5年将保持4.4%的年复合增长率。
01 极致性能追求,将IT化繁为简进行到底
作为专为中小算力规模量身定制的轻量化私有云产品,青云云易捷以软件定义技术为核心,秉承“可靠、简单、智能”的产品理念,致力于提升业务效率,助力企业快速发展。
值得一提的是,青云最新发布的云易捷超融合v5.0在原有“可靠、简单、智能”的基础上,继续强化VMware迁移能力与分布式存储运维的易用性,为企业数字化转型提供更全面、更便捷的支持。
曹振总结了云易捷的关键特性更新,包括多集群管理、存储简单运维、VMware迁移多方案提供等。
面向多集群管理,云易捷v5.0新增的多集群管理功能,打破了地域限制,实现了对多个云易捷数据中心的统一管理。通过中央控制集群,用户可以集中监控和管理分布在不同地区的集群,大大降低了运维复杂性,提高了管理效率。
在存储运维环节,云易捷v5.0在分布式存储运维方面进行了深度优化,让复杂的操作变得简单易行。包括面向磁盘扩容、磁盘替换、磁盘绑定关系变更等都提供可视化界面,帮助用户轻松操作。
在Vmware迁移方案上,云易捷v5.0除了对VMware纳管迁移场景进行优化外,还新增NFS文件存储离线迁移VMware资源的方式,用户可按需选择最合适的迁移方式。
曹振说,青云最新发布的云易捷V5.0,依然秉持着让IT管理变得如呼吸般自然流畅、让繁琐的IT管理成为过去式的理念,将IT化繁为简进行到底,同时让稳定与效率并驾齐驱,让用户拥有更多时间专注业务创新与价值创造。
除此之外,青云云易捷也在积极拥抱AI技术。
02 智能化发展,打造AI开发推理平台
曹振坦言,相比做基础大模型或行业垂类大模型,青云更擅长于调用大模型的服务、基于大模型做AI类型的应用,这也符合青云的企业愿景——云之基石,自由计算。青云基于服务好AI应用的前提下,开发打造了AI开发推理平台。
随着AIGC技术的蓬勃发展,近两年国内涌现出摩尔线程、壁仞科技、天数智芯等一批GPU芯片厂家。而企业在拥抱AI的进程中,如何整合主流NVIDIA和国产GPU/NPU等算力设备,实现异构算力支持?成为AI应用趋势下企业面临的全新挑战。
这也是青云推出 AI开发推理平台的初衷,以应对和满足这些场景的要求。
曹振介绍,基于 AI开发推理平台,除了提供常见的模型部署、任务调度、训练任务等可视化的管理外,还具备几个核心的能力:
首先是多元基础设施的整合。AI开发推理平台提供了异构算力的统一管理,支持NVIDIA和国产GPU/NPU等算力设备的兼容;同时支持多样化存储(对象存储、第三方并行文件存储、NAS)服务能力的对接;并可以自动采集各类任务的运行监控和日志数据(如节点负载、GPU利用率和功耗等指标),并自动计算综合功耗以评估任务资源使用状况。
其次是AI数据资产管理。通常企业AI数据资产包含数据集、模型、算法、镜像等。AI开发推理平台针对这些数据资产可以进行统一管理,并且通过访问权限控制保证企业AI数据访问的安全性,包括针对AI数据资产提供独立访问凭证,根据数据资产的开放程度,支持“只读”、“读写”和“完全公开”等多种权限方式设置数据访问权限。曹振解释称,“数据安全对每个企业都是尤为重要的,特别是AI应用往往涉及企业关键业务,而企业很难将敏感型数据放在公有云上,这对于合规、安全甚至是客户资源都是不可接受的,所以我们一定要保障企业私有化落地的安全诉求。”
第三是AI服务中台。通过内置Notebook和VsCode2,以及在线IDE的环境,云易捷通过AI服务中台提供了交互式建模和数据分析的能力,以实现灵活开发;在训练任务上, AI开发推理平台内置了成熟的AI训练和推理的框架,如DeepSpeed,Ray,colossal-ai等框架,并且在微调的调优场景下,内置了LLaMa-Fatory以及Megatron等一些框架,支持主流的像LLaMa3、Qwen以及ChatGLM等一些大模型,以加速AI应用落地。
03 超融合云平台,助力集成电路企业数字化之旅
借助青云云易捷最新的技术,曹振还分享了一家世界领先的集成电路晶圆代工企业的数字化转型历程。
这家集成电路制造企业具有领先的工艺制造能力、产能优势、服务配套,向客户提供晶圆代工与技术服务,同时拥有全球化的制造和服务基地,在多地等地建有智能工厂。
但其面临的挑战也不小。随着该企业的客户数量不断增长,业务应用对数据中心承载平台的扩展性、稳定性、基础平台服务多元化需求提出了更多要求,建设一个分布式云计算平台迫在眉睫。
曹振介绍,在该企业的应用中,青云为其各个分厂打造了不同规模的超融合集群,构建底层IT承载平台,承载工厂的OA、产品开发等环境,满足其日常办公场景的应用。其底层数据则是通过多副本的机制,保证数据的安全性,通过零信任安全管理策略确保终端登录用户的行为能够得到有效的管理,并且能提供一个审计分析,做到事后审计的纠源。在超融合的集群之上,提供了容器Docker资源,以及配合LB、VPC等功能,给开发人员提供多种类型的资源,助力整个业务系统进行容器化改造。
此外,在多IT集群、网络互通的情况下,分部集群可以与总部的全栈私有云环境进行打通,进而统一管理,让集团的运维人员能够统筹进行全局资源分配和管理,能及时了解各个工厂的运行情况,进而降低繁杂的管理交付工作。
基于此,该企业不仅实现了依托云原生的工业互联网智能制造建设,构建了大数据平台能力;还实现了集团内各机构高内聚、松耦合的统一管理,降低了运营风险。
曹振说,这是青云服务众多工业制造领域客户的一个缩影。通过助力企业实现基础设施云化升级、降低运维成本、提升数据安全,青云正以可靠、简单、智能的技术驱动企业的业务创新,帮助它们打造新质生产力,以实现高质量发展。