導讀:Ethos-U85關鍵特性是釋放大模型和多模態(tài)AI在邊緣部署的巨大潛力。
將計算資源部署在邊緣和終端并不少見,目的是提升指令響應速度、節(jié)省帶寬資源、提高數據安全與隱私性等。并且隨著大模型與多模態(tài)AI的快速發(fā)展,邊緣與端側AI處理需求快速增長,邊緣AI同時迎來在性能、功耗、能效、成本等方面的挑戰(zhàn)。
近日,Arm宣布推出第三代面向邊緣AI的NPU產品Arm Ethos-U85 NPU,同時推出了能為語音、音頻和視覺等邊緣AI應用提供支持的全新物聯網參考設計平臺Arm Corstone-320,再次擴大了軟硬件協同的邊緣AI產品與服務矩陣。
其中Ethos-U85與上一代產品相比性能提升了四倍,能效提升了20%,可在主流網絡上實現高達85%的利用率,可滿足工廠自動化和商用或智能家居攝像頭等物聯網應用不斷攀升的性能需求。
Arm Corstone-320物聯網參考設計平臺則結合了領先的嵌入式IP、軟件、工具和支持,以預先集成、以預先驗證的模式,為合作伙伴縮短用于邊緣智能芯片的開發(fā)時間且降低開發(fā)復雜度和開發(fā)成本,加快產品上市。
“軟硬件必須協同工作才能釋放AI處理的最大潛能。Arm不僅僅聚焦我們的處理器IP,更是在軟件與工具鏈方面加強投資,確保我們領先于行業(yè),以滿足更簡單、快速的高性能邊緣AI系統的開發(fā)需求,支持諸多AI算子與應用在Arm計算平臺上的優(yōu)化運行,使邊緣AI在Arm平臺上枝繁葉茂?!盇rm物聯網事業(yè)部業(yè)務拓展副總裁馬?。–hloe Ma)在媒體溝通會上表示。
Ethos-U85關鍵特性是釋放大模型和多模態(tài)AI在邊緣部署的巨大潛力
近年來生成式AI大模型的快速發(fā)展與Transformer深度神經網絡的出現有極大關系。與上一代CNN、RNN架構相比,Transformer將模型參數提升到了幾十億、幾百億甚至上千億,模型的復雜程度和學習能力快速提高,尤其在機器翻譯、自然語言理解、語音識別、圖像字幕生成等AI任務中有優(yōu)異表現。
相比Arm Ethos-U系列前代產品甚至是行業(yè)中很多邊緣AI加速器,Ethos-U85的關鍵特性之一正是在支持CNN和RNN基礎上,增加了對Transformer架構的支持。
尤其因為資源受限,大模型往往需要變成相對小的模型才更適合部署在邊緣設備?;赥ransformer的大模型可以被調整和壓縮,支持在不過多影響準確度的情況下,高效運行于邊緣設備上。
Ethos-U85的主要特性包括:
單周期支持從128到2048個MAC單元的配置——在1GHz時,算力可支持從256GOPS到4TOPS。
支持int8權重和int8或int16激活。
支持Transformer架構網絡,以及CNN和RNN。
支持TensorFlow Lite和PyTorch等AI框架。
硬件原生支持2/4稀疏性,使吞吐量翻倍。
內部SRAM為29至267KB,多達六個128位AXI5接口。
支持權重壓縮,采用標準和快速權重編碼器。
支持擴展壓縮。
除了計算能力大幅提升,大模型和生成式AI另一大優(yōu)勢是對多模態(tài)的支持。例如一些智能家居應用需求已經從單一模型支持不同的傳感器,升級到統一模型支持不同的多模態(tài)傳感器輸入。多模態(tài)AI就像家庭大腦,可以更安全、更智能地營造個性化家庭居住體驗,而這也對AI算力提出更高要求。
至于Ethos-U85適用的場合,既包括需要AI加速的低功耗MCU系統如智能家居、零售、工業(yè)等新興邊緣AI應用場景,也包括高性能邊緣計算系統如工業(yè)機器視覺、邊緣網關、可穿戴設備、消費類機器人等。具體在執(zhí)行更高性能設備的邊緣推理需求時,Arm在設計Ethos-U85之初就考慮了將其與領先的Armv9 Cortex-A CPU相結合,以加速處理機器學習任務。
Corstone-320提供安全可靠的軟硬件組合以加快產品上市
在硬件IP方面,Corstone-320集成了Cortex-M系列最高性能的嵌入式處理器Cortex-M85(滿足視覺應用的能效、性能、安全等需求),以及全新的Ethos-U85 NPU AI加速器,還結合了Arm Mali-C55 ISP,確保實現視覺應用圖像處理和能效需求。
在軟件方面,Corstone-320集成了固件、所有IP的驅動程序、中間件、實時操作系統和云集成、ML模型和參考應用程序,有效幫助軟件開發(fā)者選擇其特定細分市場所需的組件和工具構建物聯網堆棧。軟件中還包含了固定虛擬平臺(FVP),用于對構成完整FPGA系統的外設進行建模。通過使用FVP,軟件開發(fā)者無需硬件即可開始開發(fā)應用,從而加快開發(fā)速度。
總的來說,新推出的Ethos-U85和Corstone-320參考設計平臺滿足了語音、音頻和視覺邊緣AI應用更高計算性能的需求,同時沿用了Arm軟件與AI開發(fā)者熟知的工具鏈,具有投資復用、上手容易等優(yōu)勢,能夠加速整個物聯網生態(tài)實現AI和ML的轉型。
基于 Arm技術的物聯網ML/AI芯片及解決方案持續(xù)擴展
Arm在ML和AI生態(tài)方面始終有持續(xù)投入。
2019年,Arm開始在Armv8.1-M架構中增加Helium矢量擴展技術,至今Cortex-M52、Cortex-M55和Cortex-M85都已引入Helium技術,使嵌入式和IoT開發(fā)者可以繼續(xù)基于Cortex-M設計ML和AI芯片解決方案。
Arm迄今推出的專用AI加速器包括Ethos-U55、Ethos-U65、Ethos-U85,
以進一步適應邊緣AI和嵌入式AI的市場需求。包括恩智浦半導體的i.MX系列、英飛凌的PSoC Edge和Alif Semiconductor的Ensemble系列等,都搭載了Ethos-U55和Ethos-U65AI微加速器。AlifSemiconductor和英飛凌更是全新ArmEthos-U85NPU的早期采用者。
Arm也發(fā)布了多種物聯網參考設計,比如Corstone-300、Corstone-310、Corstone-1000及最新的Corstone-320。這些參考設計不僅包括了Arm或集成了合作伙伴IP的子系統,還包括必要的ML工具鏈及適用目標用例的AI模型。
對于未來AI產品及應用的發(fā)展方向,Arm認為“大小模型云邊端結合”將是重要趨勢。尤其邊緣部署大模型和生成式AI用例指日可待,Arm也已經為此做好準備,來挑戰(zhàn)物聯網與大模型/多模態(tài)AI結合的成本、性能與效率極限!這想必也符合物聯網產業(yè)對大模型與生成式AI應用最實際的期待。