DoNews1月13日消息,今日凌晨,DeepSeek 開源全新架構(gòu)模塊「Engram」,并同步發(fā)布技術(shù)論文,署名作者中再次出現(xiàn)梁文鋒。據(jù)悉,Engram 模塊通過引入可擴(kuò)展的查找式記憶結(jié)構(gòu),為大模型提供了區(qū)別于傳統(tǒng) Transformer 與 MoE 的全新稀疏性維度。
DeepSeek 在論文中指出,當(dāng)前主流大模型在處理兩類任務(wù)時(shí)存在結(jié)構(gòu)性低效:一類是依賴固定知識(shí)的「查表式」記憶,另一類是復(fù)雜推理與組合計(jì)算。傳統(tǒng) Transformer(無論 Dense 或 MoE)均需通過多層注意力與 MLP 重建這些靜態(tài)模式,導(dǎo)致計(jì)算資源被大量消耗在「重復(fù)構(gòu)造已知模式」上。
Engram 的核心機(jī)制是基于現(xiàn)代化哈希 N-Gram 嵌入的 O(1) 查找式記憶。模塊會(huì)對輸入 Token 序列進(jìn)行 N-Gram 切片,并通過多頭哈希映射到一個(gè)規(guī)??蓴U(kuò)展的靜態(tài)記憶表中,實(shí)現(xiàn)常數(shù)時(shí)間的檢索。
論文強(qiáng)調(diào),這種查找與模型規(guī)模無關(guān),即便記憶表擴(kuò)展至百億級參數(shù),檢索成本仍保持穩(wěn)定。與 MoE 的條件計(jì)算不同,Engram 提供的是「條件記憶」。模塊會(huì)根據(jù)當(dāng)前上下文隱向量決定是否啟用查找結(jié)果,并通過門控機(jī)制與主干網(wǎng)絡(luò)融合。
論文顯示,Engram 通常被放置在模型早期層,用于承擔(dān)「模式重建」職責(zé),從而釋放后續(xù)層的計(jì)算深度用于復(fù)雜推理。DeepSeek 在 27B 參數(shù)規(guī)模的實(shí)驗(yàn)中,將部分 MoE 專家參數(shù)重新分配給 Engram 記憶表,在等參數(shù)、等算力條件下,模型在知識(shí)、推理、代碼與數(shù)學(xué)任務(wù)上均取得顯著提升。
在 X 平臺(tái)上,相關(guān)技術(shù)討論認(rèn)為 Engram 的機(jī)制有效減少了模型早期層對靜態(tài)模式的重建需求,使模型在推理部分表現(xiàn)得更「深」。部分開發(fā)者指出,這種架構(gòu)讓大規(guī)模靜態(tài)記憶得以脫離 GPU 存儲(chǔ)限制,通過確定性尋址實(shí)現(xiàn)主機(jī)內(nèi)存預(yù)取,從而在推理階段保持低開銷。多位觀察者推測,Engram 很可能成為 DeepSeek 下一代模型「V4」的核心技術(shù)基礎(chǔ)。