技術(shù)
導(dǎo)讀:華為宣布,該公司針對(duì) AI 推理加速的關(guān)鍵技術(shù) ——UCM(Unified Cache Manager)推理記憶數(shù)據(jù)管理正式宣布開(kāi)源。
11 月 5 日消息,華為宣布,該公司針對(duì) AI 推理加速的關(guān)鍵技術(shù) ——UCM(Unified Cache Manager)推理記憶數(shù)據(jù)管理正式宣布開(kāi)源。
UCM 以 KV Cache 多級(jí)緩存和推理記憶管理為中心,通過(guò)推理框架、算力、存儲(chǔ)的三層協(xié)同,宣稱(chēng)可破解長(zhǎng)序列推理效率低、成本高的難題,為企業(yè)提供更優(yōu)的 AI 推理體驗(yàn)。
UCM 融合了多類(lèi)型緩存加速算法工具,可分級(jí)管理在推理過(guò)程中產(chǎn)生的 KV Cache 記憶數(shù)據(jù)。UCM 架構(gòu)包含多個(gè)協(xié)同工作的關(guān)鍵功能模塊,具體如下:
UCM 稀疏化模塊(UcmSparseBase):兼容多種稀疏算法的統(tǒng)一基類(lèi),負(fù)責(zé)稀疏 KV Cache Block 的卸載、加載與計(jì)算,實(shí)現(xiàn)“零感知”插拔式稀疏化。在不影響整體推理流程的前提下,能夠靈活適配不同稀疏算法以提升推理效率。
稀疏化 KV 管理器(SparseKVManager):面向算法級(jí)定制的 KV Cache Block 分配總控器,各稀疏算法以多態(tài)子類(lèi)形式將自身分配邏輯注入框架,實(shí)現(xiàn)不同稀疏算法策略與推理引擎解耦,滿(mǎn)足差異化推理場(chǎng)景需求。
KV Cache 存儲(chǔ)組件(UcmKVStoreBase):負(fù)責(zé)提供與外部存儲(chǔ)通信的通用接口。該組件支持稀疏算法與存儲(chǔ)后端解耦,可無(wú)縫對(duì)接任意存儲(chǔ)系統(tǒng),同時(shí)支持前綴緩存,為數(shù)據(jù)存儲(chǔ)提供了靈活多樣的選擇。
UCM 連接器(UC Connector):橋接 KV Cache 存儲(chǔ)組件與推理引擎,保障數(shù)據(jù)在不同組件之間的高效傳輸,實(shí)現(xiàn)高可靠的前綴緩存能力。
基于以上架構(gòu),UCM 目前具備四大關(guān)鍵能力:稀疏注意力、前綴緩存、預(yù)填充卸載、異構(gòu) PD 解耦,實(shí)現(xiàn)首 Token 時(shí)延最高降低 90%,系統(tǒng)吞吐最大提升 22 倍,并達(dá)到 10 倍級(jí)上下文窗口擴(kuò)展,顯著提升了 AI 推理性能。
UCM 已在 ModelEngine 社區(qū)開(kāi)放基礎(chǔ)框架與工具鏈,開(kāi)發(fā)者可通過(guò)社區(qū)獲取 UCM 源代碼與技術(shù)文檔。