上個月,全球計算機存儲領域的頂級學術會議——第23屆USENIX文件與存儲技術會議(USENIX Conference on File and Storage Technologies,簡稱FAST),在美國加利福尼亞州聖克拉拉舉行。
本屆大會上,來自中國的人工智能(AI)初創公司月之暗面(Moonshot AI)和清華大學團隊合作發表論文並在其中提出一個名為Mooncake的系統,因而獲得埃里克·里德爾最佳論文獎(Erik Riedel Best Paper Award)。
香港《南華早報》3月14日報道認為,Mooncake這一款大語言模型系統的效率比之前的基準提高了五倍,從而幫助降低了對計算資源的需求。在美國長期就中國獲取先進AI芯片進行圍堵打壓的背景下,這一成果還有助於對抗美國芯片禁令、減少對英偉達等企業出產的圖形處理單元(GPU)的依賴。
而在本月,無問芯穹(Infinigence AI)和上海交通大學、清華大學共同提出的視頻生成大模型推理IP工作——FlightVGM,也在國際頂級會議上獲獎。他們首次在可重構邏輯集成電路(FPGA)上實現了視頻生成模型(VGMs)的高效推理,在美國半導體公司AMD廣泛可用的V80 FPGA芯片上,該系統在性能上提升了30%,能效比英偉達旗艦產品RTX 3090 GPU高出4.5倍。
《南華早報》稱,中國AI科研團隊用工業芯片取代英偉達高端GPU而獲全球大獎,這預示著全球優化AI硬件的競賽也出現了重大轉變。

埃里克·里德爾最佳論文獎 清華大學網站新聞圖
據報道,這篇獲獎論文由清華大學計算機系教師章明星、武永衛、鄭緯民團隊和月之暗面公司合作發表,名為“以鍵值緩存為中心的以存換算大語言模型推理架構”(Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot)。論文的第一作者為計算機系博士生秦若愚,導師為助理教授章明星。
根據清華大學方面的介紹,該論文提出的系統Mooncake,是月之暗面推出的大語言模型服務Kimi的底層推理服務平台。Mooncake采用了一種以鍵值緩存(KVCache)為中心的分離架構,不僅將預填充和解碼集群分離,還高效利用了推理集群中未充分利用的CPU、DRAM、SSD和NIC資源,構建了一個獨立的KVCache緩存池。其核心創新在於以KVCache為中心的全局緩存和調度器,旨在嚴格延遲相關服務級別目標(SLOs)下最大化吞吐量。
實驗結果顯示,Mooncake在處理長上下文輸入的場景中表現出色。在使用真實數據進行的測試中,與基線方法相比,Mooncake在符合SLOs的情況下,將有效請求處理能力提升了59%至498%。目前,Mooncake已在數千個節點上運行,每日處理超過1000億個token。在實際部署中,Mooncake的創新架構使Kimi在NVIDIA A800和H800集群上分別比以前的系統多處理115%和107%的請求。
《南華早報》指出,一段時間以來,美國政府已對向中國出口先進AI芯片實施了一系列限制措施,包括對英偉達高端芯片的多項禁令。

英偉達的AI芯片在全球範圍內廣泛部署。 《華爾街日報》
早在2022年10月,美國政府就已實施了一系列AI芯片出口限制措施,英偉達由於無法向中國市場提供A100和H100這兩款AI處理器,專門為中國市場特供符合美方規定的A800和H800芯片,以繞開美國政府的管制。
2023年10月,美國商務部又發布了一系列新的芯片出口限制,擴大了對高級AI芯片的定義,並對運往40多個國家的芯片產品提出額外的許可要求,以避免轉售給中國。這一新的限制措施出台,意味著A800和H800芯片也被列入禁售名單。
美方想方設法圍堵打壓,就是意圖限制中國在AI領域的計算能力,進而壓制AI模型的訓練和開發。然而,這些限制反而促使中方研究人員和企業尋求通過軟件優化和創新數據結構來挖掘現有芯片潛力的方法。
據報道,清華大學MADSys實驗室已在軟件源代碼托管服務平台GitHub上啟動了Mooncake項目,旨在加速該技術的采用和傳播。與此同時,該項目已被包括阿里巴巴和螞蟻集團在內的多家公司內部采用,並已融入開源社區。
今年1月,中國AI初創公司深度求索(DeepSeek)發布的開源大模型DeepSeek-R1,使用由英偉達H800 GPU驅動的數據中心進行訓練,僅用兩個月就完成了訓練,成本為550萬美元,僅為OpenAI等美國公司所花費金額的一小部分,卻實現了足以匹敵美國頂尖AI模型的效果,“低成本且高效能”的特點不僅震撼業界,同時也引發多國關注,尤其是美國。
彭博社此前介紹稱,在DeepSeek火爆出圈以及中國AI行業蓬勃發展之際,一些互聯網公司多年來也一直在深耕AI領域,而此次與清華大學團隊合作的月之暗面也是其中之一。

中國AI初創企業深度求索(DeepSeek) 《紐約時報》
月之暗面公司由清華大學助理教授楊植麟創立,他此前曾在臉書母公司Meta和谷歌從事AI項目工作。月之暗面最新發布的產品利用強化學習來加速和擴展訓練過程,該產品與DeepSeek的R1推理模型在同一天宣布,工作原理相似。推理模型采用思維鏈的方法來尋找和完善對查詢的回答。Kimi k1.5旨在提供更簡潔的回答,並支持最多200萬字符的中文語境,這些語境可以包含從過往對話到用戶意圖和情境的所有內容。
FAST是計算機存儲領域的頂級學術會議,已創立20余年,在存儲領域具有重要影響力,被中國計算機學會(CCF)認定為存儲系統領域的A類國際學術會議。
值得注意的是,除了此次在FAST上獲獎之外,中方團隊近期也在其他頂級學術界會議上頻頻獲獎。
3月3日,在剛剛落幕的國際可重構計算領域頂級會議“FPGA 2025”上,會議的最佳論文獎頒發給了無問芯穹和上海交通大學、清華大學共同提出的視頻生成大模型推理IP工作——FlightVGM。據了解,這是FPGA會議首次將該獎項授予完全由中國大陸科研團隊主導的研究工作,同時也是亞洲國家團隊首次獲此殊榮。
據介紹,這項工作首次在可重構邏輯集成電路上實現了視頻生成模型的高效推理,也是該團隊繼去年在FPGA上加速大語言模型FlightLLM(FPGA’24)後的最新系列工作。與英偉達3090 GPU相比,FlightVGM在AMD V80 FPGA上實現了1.30倍的性能提升與4.49倍的能效提升(峰值算力差距超過21倍)。
對此,《南華早報》在3月12日的報道中認為,在向美國科技巨頭英偉達的AI硬件領域主導地位發起勇敢挑戰中,中國研究人員在一款現成的工業芯片上訓練出一個尖端視頻生成模型,其在速度和效率上都超越了高端GPU。而這也預示著,全球優化AI硬件的競賽出現了重大轉變。