NVIDIA研究人员正使用GPU所支持的AI功能重塑3D图形,AI和3D图形的惊人进步,为新一代技术平台---元宇宙奠定了基础。在本次SIGGRAPH 2022上,NVDIA发布了关于Omniverse最新技术、产品及其在计算机图形、元宇宙和机器人开发三大工作领域的协作应用。
NVIDIA GPU成为深度学习的引擎,而深度学习是现代AI的基础技术。以往人工智能使用计算机编写人类无法编写的软件,实现了智能技术的自动化。如今研究人员正在以惊人的速度进行创新,并取得了突破性进展,涉及计算机视觉、自然语言处理、情感交互、机器人开发与服务等,人工智能正在彻底改变包括计算机图形学在内的最大行业。
NVIDIA研究人员正使用GPU所支持的AI功能重塑3D图形,AI和3D图形的惊人进步,为新一代技术平台---元宇宙奠定了基础。在本次SIGGRAPH 2022上,NVDIA发布了关于Omniverse最新技术、产品及其在计算机图形、元宇宙和机器人开发三大工作领域的协作应用。
无处不在的AI刺激着万物演进
在NVIDIA创始人兼首席执行官黄仁勋看来,万物都是互联的,并且其飞跃式发展都可追溯到AI。约25年前,NVIDIA率先推出了GPU和实施可编程着色器。这种新型图形处理器并不运行固定功能管线,而是执行名为着色器的程序,可编程着色GPU引起3D发生了革命性变化,使如今各种高质量的图片看上去栩栩如生。
4年前,也就是GPU问世21年后,NVIDIA在SIGGRAPH 2018大会上推出了NVIDIA RTX,这种新型的GPU架构通过两种新处理单元拓展基于光栅化和可编程着色的GTX架构,分别是RT Core上的加速光线追踪和Tensor Core上的深度学习,RTX重新定义了计算机图形并为计算机科学家开辟了新的领域,这也直接促使后续许多新算法都是在SIGGRAPH上首推的并取得了令人惊叹的进展。
从NVIDIA的GAUGAN AI图像生成器和RTX GI全局照明到ASE角色动画,再到AUDIO2FACE,NVIDIA的AI研究正在影响计算机图形的方方面面,RTX融合了可编程着色、光线追踪和AI,开启了神经图形新时代。如今,神经图形将成为艺术家创建3D世界以及世界动画和渲染方式不可缺少的一部分,NVIDIA颇具影响力的神经图形发明之一是DLSS,一种学习提高动态图形分辨率的AI技术。
值得一提的是,神经图形也是新兴元宇宙的重要支柱之一。
互联网在二十年前商业化,是关于通过网络超链接的网页。十年前,Web2.0的出现使互联网连接到移动设备上使用,包括各种应用与基于云的服务。现如今,互联网进入3.0时代,大家可以将元宇宙看作是3D的互联网,一种由互连的虚拟世界构成的网络。如果说元宇宙将2D网页拓展到3D空间,超链接则演变成3D世界之间的超级跳转。就如同网络游戏般,2D显示器和电视也可以跨越体验3D世界,当然有时也需要VR和AR眼镜的辅助。
特别是针对时尚设计师、家具和商品制造商以及零售商尔而言,可以提供虚拟的3D产品,使用户使用增强现实进行试穿、试用。此外,电信公司如爱立信通过元宇宙的方式构建无线电网的数字孪生,以便优化和部署无线电塔,各种类型的生产企业也开始尝试创建仓库和工厂的数字孪生,以期优化其布局和物流,包括NVIDIA正在构建地球的数字孪生,进而预测未来的气候状况。
可以看到元宇宙将像互联网一样,同时在各个行业持续创新增长,但由于计算的复合和网络效应,它将呈指数级增长。与互联网一样,元宇宙是一个计算平台,需要新的编程模型、计算架构和标准,HTML是2D Web的标准语言,USD则是由Pixar发明的一种开源可拓展的3D世界语言,从现阶段看它也可能是元宇宙的最佳语言。NVIDIA Omniverse正是一个基于USD的多GPU可扩展计算平台,是构建元宇宙的应用工具包。
图 Omniverse基于USD的多GPU可扩展计算平台
Omniverse令人兴奋的应用之一是机器人开发,这些系统可以感知其环境、反馈和变化,NVIDIA开发的机器人形态功能各异,包括自动驾驶汽车、制造用机器臂、仓库库存搬运机器人、农业种植、除草机器人以及物流拣货机。机器人将引领AI浪潮,而Omniverse平台对设计、训练和操作机器人的工作至关重要。
其中一种常用的机器人应用将是数字人和虚拟形象,虚拟形象出现在虚拟世界中,帮助用户创作和构建事物,成为品牌大使和客户服务代理,帮助用户在网上快速的定位所需的货品位置,或者在餐馆前台提供点餐服务。创建虚拟形象需要先进的AI模型,这些模型能看、能听、可以理解语言,掌握知识、进行交谈和制作动画。
以ACE构建虚拟形象最佳模型
目前各行业对虚拟人和虚拟助手的需求呈指数级增长,但同时创建和扩展也变得越来越复杂。北京市经济和信息化局正式对外发布《北京市促进数字人产业创新发展行动计划(2022—2025年)》,这是国内首个数字人产业专项支持政策。根据《行动计划》,到2025年,北京市虚拟人产业规模将突破500亿元,初步形成具有互联网3.0特征的技术体系、商业模式和治理机制。
图 虚拟形象的创建和扩展正变得越来越复杂
本次SIGGRAPH 2022 上,英伟达宣布了 Omniverse Avatar Cloud Engine(ACE)云原生AI模型和服务,能够让用户更轻松地构建和自定义栩栩如生的虚拟助手和数字人。通过将这些模型和服务迁移到云端,ACE使任何规模的企业都能够立即获得创建并部署助手和虚拟形象所需的大规模算力。这些助手和虚拟形象能够理解多种语言、响应语音提示、与环境互动并提供智能建议。
ACE建立在NVIDIA的统一计算框架基础之上,该框架为用户提供丰富的软件工具和API,使他们能够使用各种用于创建高度逼真的全互动式虚拟形象的技能。这些工具包括用于开发语音AI应用的NVIDIA Riva、用于计算机视觉和智能视频分析的NVIDIA Metropolis、用于高性能推荐系统的NVIDIA Merlin、用于自然语言理解的大型语言模型NVIDIA NeMo Megatron以及用于AI赋能动画的NVIDIA Omniverse。
ACE所支持的助手和虚拟形象将改变游戏、娱乐、银行、交通和酒店等领域的互动方式。NVIDIA的Project Maxine和Project Tokkio是建立在ACE上的两个应用,前者Project Maxine为虚拟协作和内容创建应用带来了最先进的视频和音频功能;而后者Project Tokkio赋予交互式虚拟形象以视觉、感知和智能对话能力,并使虚拟形象能够提供建议,以提高餐厅等场所的客户服务水平。
深耕工业元宇宙,Omniverse加快行业应用拓展
在创建数字资产的过程中,其开发难点在于它是一个融合多技术、多学科的复杂工程, NVIDIA更希望设计师不局限在UGC概念中,而是向着AIGC的路径演进。例如在数字虚拟人的技术迭代过程中,需要更多前沿性的功能,这时候DCC和UGC完成的是前半段工作,而Omniverse平台则以开放的交互模式实现后半段落地,通过尽量低的降低技术门槛,让更多普通人都能参与到数字资产创建工作中。
以制作数字人的面部表情为例,传统方式需要对CG面部动作捕捉和绑定,然后制定对应的表情和口型,整个流程不仅繁琐,成本也将居高不下。借助在CES 2022中发布的Omniverse Audio2Face,一般设计者仅十几分钟便可以基本掌握这个软件,只需要一条音轨即可立即制作人脸、动物甚至虚拟角色的各种面部表情和口型对白,并可提供Blend Shape支持,反向导入Maya或在Unreal Engine的Metahuman中直接使用。
图 Omniverse Audio2Face
实际上,Omniverse平台具有广泛的开放性,无论是汽车还是工业机器人,再到科学计算、验证、仿真、科研,或是楼宇建筑、游戏创建、产品设计,以及老生常谈到的娱乐、电影各项内容制作,Omniverse平台致力于帮助用户更快的完成协同设计、轻量化设计,更简单、更快速、更逼真地把整个虚拟世界复现出来,同时遵循现实世界的基本规律。
在本次SIGGRAPH上NVIDIA公布了即将到来的推动USD发展的更新,包括:让所有国家和语言的用户都能参与USD的国际字符支持、实现城市规模和行星规模数字孪生的地理空间坐标支持以及实现数字孪生与物理世界同步发展的物联网数据实时流式传输。为了加速USD的开发和采用,NVIDIA还宣布开发一个开放的USD兼容性测试和认证套件,开发者可以自由使用该套件来测试他们使用USD构建的项目并验证结果是否符合预期。
值得一提的是,NVIDIA还在SIGGRAPH上汇集了USD生态系统中的数百名工程和产品负责人,并组成工作委员会,帮助NVIDIA调整USD开发的优先事项并获取关于重点开发方向的反馈。目前,NVIDIA与工业、设计、模拟和CAD软件生态系统中的合作伙伴一同发布了11个新的Omniverse连接器(Connector),这些基于USD的插件进一步向工业界和科学界的公司开放Omniverse工作流程。Omniverse USD生态系统中的连接器总数现已达到112个。
图 NVIDIA与合作伙伴加速工业元宇宙发展
持续版本更新,Omniverse多维并进打造更多可能
作为一个成熟的用于构建虚拟世界多GPU可扩展计算平台,Omniverse已被全球约700家领先的公司用于改进建筑和产品设计、简化视觉效果工作流程以及构建工厂、城市和地球的数字孪生,拥有超过百万个人用户。在具体使用中,Omniverse平台并非单个实体,其丰富组件能够赋予平台极高的灵活性与协作性,多种功能结构将Omniverse打造成应用、连接器、服务、扩展程序和渲染器的结合体。
图 Omniverse USD新增USD连接器和工具、模拟技术以及开发者框架
本次SIGGRAPH上NVIDIA发布了多项AI工具和功能增强,让艺术家、开发者和工程师能够比以往更加轻松地构建虚拟世界和内容,并且更加无缝地连接当今领先的3D应用,包括PTC Creo、SideFX Houdini、Unity以及来自西门子Xcelerator平台的解决方案。
除了NVIDIA Omniverse Avatar Cloud Engine这套用于构建和部署逼真虚拟助手和数字人的云原生AI模型和服务之外,NVIDIA还发布了以下平台更新:
• Omniverse Kit:用于构建本地Omniverse扩展和应用程序的工具包:Omniverse中PhysX®的主要更新,包括实时、多GPU、可扩展的柔体和颗粒布料仿真,帮助提高虚拟世界和物体的物理准确性。
• 全新OmniLive Workflows:对Omniverse中基于USD的协作进行全面改造,为多个应用程序的3D工作流程带来更高的速度和性能并实现非破坏性的USD工作流程,使艺术家和开发者之间的协作比以往更容易。
• Omniverse Audio2Face :直接通过音频文件创建面部动画的AI工具,其推理和生成逼真情绪的新功能为AI动画带来了巨大的飞跃,可用于制作所有面部特征动画。
• Omniverse Machinima :用于轻松构建3D电影和动画电影的应用,发布了数百个来自游戏《战争附言(Post Scriptum)》、《跨越火线(Beyond The Wire)》和《影子武士3(Shadow Warrior 3)》的全新免费3D资产,以及Audio2Gesture(可以利用音频文件生成逼真手臂和身体运动的AI)等一套全新AI动画工具。
• Omniverse DeepSearch:现已面向Omniverse Enterprise客户开放。DeepSearch使用自然语言帮助团队利用AI直观、准确地在庞大的、未标记的3D视觉资产数据库中进行搜索。对于因拥有数十万未标记资产而使搜索成为一大难题的游戏开发商或视觉特效工作室而言,DeepSearch将带来巨大的改变。著名的工业光魔(Industrial Light & Magic)工作室正在使用DeepSearch挖掘其不断增长的数十万环境资产库。
另外,物理机器学习框架NVIDIA Modulus现已可用为Omniverse扩展程序。经Modulus训练的物理机器学习模型可提供近实时的性能,根据不同的应用,其速度可提高4000甚至100000倍,并且具有前所未有、更接近高保真模拟的准确性。