APP开发业务 【期间解读】AI PC期间天花板级NPU强在哪?AMD XDNA 2架构剖析
在之前的期间著述中咱们如故疑望先容过,锐龙7040配备了AMD第一代NPU,而锐龙8040系列则搭载了第二代NPU,它们齐基于XDNA架构APP开发业务,而到了Ryzen AI 300系列,AMD认真为它配备了基于XDNA 2架构的NPU,使其算力暴增到50TOPS,远远特等了CopilotPC+的40TOPS性能需乞降一众竞品。那么XDNA 2架构到底强在哪儿?为什么它能提供远超旧例处理器的AI盘算推算性能?在前不久AMD于好意思国洛杉矶举行的 2024 Tech Day大会上,AMD高等副总裁、东谈主工智能负责东谈主Vamsi Boppana为寰球进行了疑望的素质。
专科的事交给专科的U:XDNA打造的NPU更符合高效AI盘算推算
在AI PC期间,AI应用的特定性决定了它更需要一种专用的全新架构来提供更高能效的盘算推算。从图中不错看到,跟着AI应用负载越来越特殊化,CPU和GPU在盘算推算能效比喻面如故捉襟露肘,而NPU这种专为AI盘算推算而生的处理器赫然在这方面上风很大。
那么为什么NPU是AI PC期间处理器必备的功能呢?从图中咱们不错看到,AI应用方面,模子的限度和各种性齐在收敛地增长,越来越成为操作系统不行或缺的一部分,因此提高AI盘算推算的遵守就比以往任何时刻齐显得更紧迫。从AI模子每瓦性能对比不错看到,相对CPU来讲,核显不错提供简陋8倍的能效,而NPU则不错提供高达35倍的能效,毫无疑问在 AI盘算推算方面,NPU是能效弘扬最高的存在。
AMD Ryzen AI 300系列移动处理器四肢新一代万能AI处理器,不错同期提供全新CPU、NPU和GPU架构,带来全新的AI PC使用体验。到2024年,第三代AMD Ryzen AI如故领有特等150个AI助力的ISV,AI生态圈的发展畸形迅猛。
Ryzen AI使用的XDNA架构之是以最符合AI盘算推算,最大的原因就是它接受了生动的盘算推算结构与更具恰当性的内归档次结构,相对传统的多中枢处理器架构来讲,它不会出现数据堵塞的情况。同期,它通过软件处置内存,不会出现缓存未射中,因此领有清醒而准确的性能弘扬。此外,它的可编程互联联想不错灵验裁汰内存带宽消费并竣事资源间隔。上头这两点让它还不错竣事盘算推算单位的生动分区,就像图上所示,它不错用8个AIE来完成及时视频、8个AIE来完成及时音频,16个AIE来完成内容创作,空间的可重构、高效的多任务性能保证了AI盘算推算的及时性能。锐龙7040/8040上接受的NPU就接受了XDNA架构,从实践弘扬来看也达到了预期的高能效AI盘算推算恶果。
大幅升级!XDNA 2再次在架构上最初业界
在Ryzen AI 300移动处理器上,咱们迎来了XDNA 2架构。XDNA 2在XDNA的基础上将AIE(AI引擎)单位从20个提高到了32个,每TIE提供双倍的MACs,片上内存增多60%,外加增强的非线性救助与特有的Block Floating Point方式救助。和锐龙7040的第一代NPU比较,接受XDNA 2架构的第三代NPU最高救助8个空间并发流,大幅增强多任务才气,提供了5倍的盘算推算性能。同期,由于XDNA 2还接受了基于列的电源门控,因此也不错提供更长的续航才气,是以第三代NPU领有了两倍于初代NPU的能效弘扬。
接下来先容的Block Floating Point方式不错算是XDNA 2的终极奥义了。咱们知谈,现在的AI应用有两种常见的数据精度,大多半AI应用使用了16bit的精度,也就是FP16(16bit浮点)方式,而移动平台为了更高的遵守一般会接受8位精度,也就是INT8(8位整数)方式。很赫然,FP16领有更高的精度,而INT8则领有更高的遵守,那么有莫得主义两者兼得呢?AMD为XDNA 2配备的,就是兼具两者性能与精度优点的Block FP16方式。
从AMD官方数据来看,Block FP16隐隐量险些握平INT8/W8A8,简陋两倍于INT8/W8A16——很赫然INT8在处理8位权重和16位激活的数据类型时是远不足Block FP16的。在9位存储的模子体积方面,Block FP16只比INT8略高,APP开发资讯远低于FP16,这也灵验省俭了存储空间。在16bit精度方面,使用LIama2-7B模子测试,Block FP16不错达到FP16简陋99.9%的精度,比INT8/W8A16更高,更是跳跃INT8/W8A8一倍。由此可见,Block FP16麇集了INT8的高性能与FP16的高精度上风,让XDNA 2架构打造的第三代Ryzen AI NPU简略确认出遥遥最初敌手的AI算力。实践上,咱们从图上还不错看到,Block FP16即等于和FP32基线比较,也险些莫得什么精度失掉,这也就意味着Block FP16给ISV们带来FP16/FP32或者Block FP16检修的模子提供了一条强力的“匝谈”。
7月8日:公推1中1+竞彩2中0+北单3中2
[扫码或长按二维码关注公众号,获取更多精准推荐]
从实测Float16峰值性能来看,XDNA 2架构打造的第三代Ryzen AI NPU领有最高50TOPS的算力,远超Apple M4 ANE、Intel Lunar Lake NPU和高通骁龙Elite X NPU。
概括来看,XDNA 2架构在XDNA的基础上进一步扩大限度,并提供了对Block FP16 的救助,从而让它领有了业界最初的AI算力,提供当下无与伦比的AI高效加快体验。
强劲生态圈助力第三代Ryzen AI升起
在硬件方面,XDNA 2如故交出了令东谈主景观的答卷,那么在配套的生态圈部分呢?AMD与微软多年来的深度合作如故在AI生态圈的打造方面有了雄伟的进展,包括感知壳体、生成式AI和配合与雷同,现在统共的模子齐如故不错责任,在基于XDNA 2架构的NPU上,不错取得出色的Copilot+体验。
寰球最为熟谙的Stable Diffusion XL Turbo土产货AI图片生成器具也提供了对Block FP16的救助,不错在XDAN 2架构的NPU上竣事超快的图片生成操作。
LIama2大言语模子也不错讹诈Block FP16来同期提供高精度和高性能,从AMD官方数据来看,在基于LIama2 7B模子的AI反映速率对比中,XDNA 2架构的Ryzen AI NPU不错提供五倍于竞品酷睿Ultra 7 155H内置NPU的反映速率。
在土产货检索增强生成(RAG)演示中,使用LIama2-7B模子的RAG不错在第三代Ryzen AI NPU上齐全开动,固然,用户也不错随时给土产货RAG“喂”上更新的辛勤,让它在复兴问题时简略提供愈加准确的限度。
关于成立者来讲,不错畸形直爽地讹诈Ryzen AI成立出千千万万的模子。Ryzen AI领有更广的模子救助度,救助1000+的模子,包括CNN和Transformer,救助不同的数据类型,包括INT4/8以及Block FP16、FP 16等等。同期也优化了Halo模子,救助LIama、Mistral、Qwen大言语模子和Stable Diffusion文生图。在践诺端,Ryzen AI也救助ONNX开动时,最终打造出开动在锐龙AI条记本上的应用聚积。
AMD的长入AI软件栈让Ryzen AI APU的CPU+NPU+GPU三位一体AI加快架构不错让ISV提供更佳的AI应用体验。其中在AI模子与算法方面,对开源平台的PyTorch、TensorFlow和ONNX提供了很好的救助;在函数库方面,为CPU(Zen5)/GPU(RDNA 3.5)/NPU(XDNA 2)齐提供了开动时,救助AI责任负载分区、编译和优化功能。固然,硬件基础方面也少不了强劲的CPU(Zen5)+ GPU(RDNA 3.5)+ NPU(XDNA 2)三位一体AI加快架构。
app开发终末通俗归来一下,Ryzen AI 300移动处理器内置的XDNA 2架构Ryzen AI NPU是刻下性能最强的NPU,XDNA 2在XDNA的基础上进一步彭胀限度,大幅提高性能,这使得它领有了高达50TOPS的峰值算力,最初业界的同期也成为Copilot+PC当下最好采用,号称天下首款“Win24 ready”的X86内置NPU。同期,XDNA 2还带来了特有的Block FP16救助,不错竣事接近INT8的性能与FP16的精确度,此外,它还救助高等数据类型、提供无为的模子救助,在长入AI软件栈的救助下更是让ISV简略提供更好的AI使用体验。概括来讲,在AI PC期间,最先具备XDNA 2架构第三代Ryzen AI NPU的锐龙AI PC,无疑能取适合下最好的AI应用体验,同期也能更好地救助将来深度绑定AI功能的Windows操作系统。