圖:螞蟻集團一直在緻力於提高大語言模型的訓練效率,並突破這一限制。
綜合中國基金報、鳳凰網報道:螞蟻集團使用國產芯片開發了一種訓練人工智能模型的技術,可將成本降低20%。近期,螞蟻集團Ling團隊發表了最新的技術成果論文《無需高級GPU即可擴展3000億參數混合專家LING大模型》。論文提到,儘管稠密模型(神經網絡中最為常見的模型之一,每個神經元都與輸入數據中的每個元素相連)取得了顯著進展,專家混合(MoE)模型如DeepSeek系列、Qwen系列和MiniMax-01系列等在某些特定任務中已展現出優於傳統稠密模型的性能。
然而,MoE模型的訓練通常依賴於高性能計算資源(例如H100、H800等先進AI加速器)。為了給業界提供一種適用於資源受限場景的模型訓練新路徑,論文介紹了兩款開源MoE模型:Ling-Lite與Ling-Plus,在資源成本與模型性能之間取得良好平衡。例如Ling-Plus模型在五種不同硬件配置下完成9萬億token的預訓練任務。若使用高性能硬件設備訓練1萬億token,預計成本為635萬元人民幣;而使用低規格硬件系統則成本約為508萬元,節省近20%。
分析指,MoE模型的訓練通常依賴於如英偉達所售GPU這類高性能芯片,使得訓練成本對許多中小企業而言過於高昂,限制了更廣泛的應用。如果螞蟻集團研究成果屬實,將表明中國在人工智能領域正逐步走向自主可控,特別是在尋求成本更低、計算效率更高的模型架構來應對英偉達芯片的出口限制。