1. e-works数字化企业网
  2. 新闻
  3. 资讯

Arm Ethos-U85 NPU:利用小语言模型在边缘侧实现生成式 AI

 
2025年02月19日 来源:Arm
关键字:Arm  

随着人工智能 (AI) 的演进,利用小语言模型 (SLM) 在嵌入式设备上执行 AI 工作负载成为业界关注的焦点。Llama、Gemma 和 Phi3 等小语言模型,凭借其出色的成本效益、高效率以及在算力受限设备上的易部署性,赢得了广泛认可。Arm 预计这类模型的数量将在 2025 年继续增长。

Arm 技术以其高性能与低功耗的显著优势,为小语言模型提供了理想的运行环境,能够有效提升运行效率,并进一步优化用户体验。为了直观展示端点 AI 在物联网和边缘计算领域的巨大潜力,Arm技术团队近期打造了一场技术演示。在演示中,当用户输入一个句子后,系统将基于该句扩展生成一个儿童故事。这项演示受到了微软 “Tiny Stories” 论文和 Andrej Karpathy 的 TinyLlama2 项目的启发,TinyLlama2 项目使用了 2,100 万个故事来训练小语言模型生成文本。

该演示搭载了 Arm Ethos-U85 NPU,并在嵌入式硬件上运行小语言模型。尽管大语言模型 (LLM) 更加广为人知,但由于小语言模型能够以更少的资源和较低的成本提供出色的性能,而且训练起来也更为简易且成本更低,因此越来越受到关注。

在嵌入式硬件上实现基于 Transformer 的小语言模型

Arm 的演示展示了 Ethos-U85 作为一个小型低功耗平台,具备运行生成式 AI 的能力,并凸显了小语言模型在特定领域中的出色表现。TinyLlama2 模型相较 Meta 等公司的大模型更为简化,很适合用于展示 Ethos-U85 的 AI 性能,可作为端点 AI 工作负载的理想之选。

为开发此演示,Arm 进行了大量建模工作,包括创建一个全整数的 INT8(和 INT8x16)TinyLlama2 模型,并将其转换为适合 Ethos-U85 限制的固定形状 TensorFlow Lite 格式。

Arm 的量化方法表明,全整数语言模型在取得高准确度和输出质量之间实现了良好平衡。通过量化激活、归一化函数和矩阵乘法,Arm 无需进行浮点运算。由于浮点运算在芯片面积和能耗方面成本较高,这对于资源受限的嵌入式设备来说是一个关键考量。

Ethos-U85 在 FPGA 平台上以 32 MHz 的频率运行语言模型,其文本生成速度可达到每秒 7.5 到 8 个词元 (token),与人类的阅读速度相当,同时仅消耗四分之一的计算资源。在实际应用的系统级芯片 (SoC) 上,该性能最多可提高十倍,从而显著提升了边缘侧 AI 的处理速度和能效。

儿童故事生成特性采用了 Llama2 的开源版本,并结合了 Ethos NPU 后端,在 TFLite Micro 上运行演示。大部分推理逻辑以 C++ 语言在应用层编写,并通过优化上下文窗口内容,提高了故事的连贯性,确保 AI 能够流畅地讲述故事。

由于硬件限制,团队需要对 Llama2 模型进行适配,以确保其在 Ethos-U85 NPU 上高效运行,这要求对性能和准确性进行仔细考量。INT8 和 INT16 混合量化技术展示了全整数模型的潜力,这有利于 AI 社区更积极地针对边缘侧设备优化生成式模型,并推动神经网络在如 Ethos-U85 等高能效平台上的广泛应用。

Arm Ethos-U85 彰显卓越性能

Ethos-U85 的乘法累加 (MAC) 单元可以从 128 个扩展至 2,048 个,与前一代产品 Ethos-U65 相比,其能效提高了 20%。另外相较上一代产品,Ethos-U85 的一个显著特点是能够原生支持 Transformer 网络。

Ethos-U85 支持使用前代 Ethos-U NPU 的合作伙伴能够实现无缝迁移,并充分利用其在基于 Arm 架构的机器学习 (ML) 工具上的既有投资。凭借其卓越能效和出色性能,Ethos-U85 正愈发受到开发者青睐。

如果在芯片上采用 2,048 个 MAC 配置,Ethos-U85 可以实现 4 TOPS 的性能。在演示中,Arm 使用了较小的配置,即在 FPGA 平台上采用 512 个 MAC,并以 32 MHz 的频率运行具有 1,500 万个参数的 TinyLlama2 小语言模型。

这一能力凸显了将 AI 直接嵌入设备的可能性。尽管内存有限(320 KB SRAM 用于缓存,32 MB 用于存储),Ethos-U85 仍能高效处理此类工作负载,为小语言模型和其他 AI 应用在深度嵌入式系统中的广泛应用奠定了基础。

将生成式 AI 引入嵌入式设备

开发者需要更加先进的工具来应对边缘侧 AI 的复杂性。Arm 通过推出 Ethos-U85,并支持基于 Transformer 的模型,致力于满足这一需求。随着边缘侧 AI 在嵌入式应用中的重要性日益增加,Ethos-U85 正在推动从语言模型到高级视觉任务等各种新用例的实现。

Ethos-U85 NPU 提供了创新前沿解决方案所需的卓越性能和出色能效。Arm 的演示显示了将生成式 AI 引入嵌入式设备的重要进展,并凸显了在 Arm 平台上部署小语言模型便捷可行。

Arm 正为边缘侧 AI 在广泛应用领域带来新机遇,Ethos-U85 也因此成为推动新一代智能、低功耗设备发展的关键动力。

责任编辑:王力
您可以:
排行榜
  1. 联想工程师登上中国冰雪之夜舞台,讲述冬奥“0故障”背后的故事
  2. 让IT运维实现轻交付 联想ServiceForce突破行业难题
  3. 奥哲孟凡俊:融合AI的低代码成为企业数智化核心引擎
  4. 以生态融合注入创新力,OpenUSD奠定企业数字化转型新里程碑
  5. 《中国制造业走向2025》白皮书
  6. 聚焦数字化变革,联想用“新IT”赋能企业数字化转型升级
  7. e-works网站VIP社区E币规则
  8. 西部数据进一步扩展旗下智慧视频解决方案
  9. 什么是数字化?有哪些成功案例?
  10. 角逐智能制造赛道,联想如何以新IT引擎突围
编辑推荐
• PTC:管理嵌入式软件的开发
• Allegro与英诺赛科联合推出全GaN参考设计, 赋...
• 施耐德电气新一代Galaxy PX UPS亮相CDCC
• 联想中国交出第二财季成绩单:个人AI业务持续...
• Fortinet 发布《2026年度CISO预测报告》
• PTC深化与Garrett Motion的合作关系,加速新产...
• Fortinet 发布安全人工智能数据中心解决方案
• 对话Gian Paolo:SOLIDWORKS 2026创新密码与AI...
• 智算时代,企业需要怎样的AI基础设施?
• 艾默生公布 2025 财年第四季度和全年业绩,并...
• 和利时智能仪表与XMagital®智能系统解决方案交...
• 2025年第十六届德国工业4.0考察正式启航
文章推荐
• 融资热 VS 倒闭潮:人形机器人产业发展“冷思...
• 优必选 VS Figure AI:一场“造假”风波,揭开...
• “超级生产团队”上线:懂生产,更懂怎么干
• 别把生命当“公测”:造车新生代狂飙下的安全...
• PTC:高科技企业数字化转型的4个案例
• 国际芯片大厂的战略新锚点:机器人与物理AI
• 钣金加工企业数字化管理系统的研究与应用
• 疲劳仿真:产品寿命的“预言家”
• 会叠衣服的中美机器人,谁离具身智能更近?
• 什么是线束设计?
• 大型PLC市场萎缩,但头部企业仍在死磕国产化?
• 众为兴重磅发布智能协作机器人

系列微信

数字化企业网
PLM之神
e-works制信科技
MES百科
工业自动化洞察
智能制造IM
AI智造圈
智能工厂前线
工业机器人洞察
智造人才圈
工业软件应用
智能制造网博会
ERP之家
供应链指南针
© 2002-2025  武汉制信科技有限公司  版权所有  ICP经营许可证:鄂B2-20030029-1(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号 法律声明及隐私权政策     投诉举报电话:027-87592219

关于我们    |    联系我们    |    隐私条款

ICP经营许可证:鄂B2-20080078
(于2003年首获许可证:鄂B2-20030029)
鄂公网安备:420100003343号
© 2002-2025  武汉制信科技有限公司  版权所有
投诉举报电话:027-87592219

扫码查看