這些天,中國人工智能公司深度求索(DeepSeek)開發的AI模型猶如一枚重磅炸彈,給西方業界造成的沖擊久久未能平息。各大西方媒體乃至AI團隊和投資者都想知道:在沒有頂尖芯片的情況下,中國人是如何用更低的成本,創造出足以匹敵美國頂尖AI模型的產品的?
“中國新型AI模型DeepSeek如何威脅美國的主導地位。”美國消費者新聞與商業頻道(CNBC)1月24日發表報道稱,深度求索發布的AI模型不僅性能超越美國頂尖同類模型,且構建成本更低、所用芯片算力也沒那麼強大,這一消息在矽谷引發恐慌,也讓美國人開始擔憂——美國在全球人工智能領域的領先地位是否正在縮小,科技巨頭在構建人工智能模型和數據中心上的巨額投入真的還值得嗎?
CNBC注意到,深度求索於去年12月底推出了一款免費開源的大語言模型DeepSeek-V3。關鍵的是,中國人僅用了兩個月時間,花費不到600萬美元,使用英偉達算力稍遜的H800芯片就構建出了這個模型。相較之下,谷歌和OpenAI花費數年時間和數億美元才取得類似成果。DeepSeek的開源模型已成為許多美國開發者的基礎。
在一系列第三方基準測試中,無論是解決覆雜問題還是數學和編程等方面,深度求索的模型在準確率上甚至超過了Meta的Llama 3.1、OpenAI的GPT – 4o以及Anthropic的Claude Sonnet 3.5。
在許多第三方測試中,深度求索本周最新發布的推理模型DeepSeek-R1同樣超越了OpenAI的最新模型o1。
Deepseek-V3與多個國內外大模型的測試數據對比 “Deepseek”公眾號
“深度求索的新模型實在令人印象非常深刻。”微軟首席執行官薩蒂亞·納德拉22日在達沃斯世界經濟論壇上感慨,“他們能如此高效地開發出一款開源模型,在推理計算方面表現出色,計算效率極高。我們必須極其嚴肅地看待中國的這些進展。”
CNBC稱,令人矚目的是,在取得這樣出色成績的背後,是美國政府對中國實施的嚴格半導體限制,這些限制使中國無法獲取英偉達H100等最強大的芯片。中方的最新進展表明,深度求索要麼找到了繞過相關規則的方法,要麼說明美國的出口管制並未達到華盛頓預期的限制效果。
標桿資本(Benchmark)普通合夥人切坦·普塔貢塔表示:“他們采用優秀的預訓練大型模型,並使用蒸餾技術(distillation),利用大型模型來提升小型模型的特定能力,這是一種非常具有成本效益的方法。”
不僅僅是DeepSeek一家。其他中國AI模型也憑借有限資源在競爭中占據了一席之地。李開覆的初創公司零一萬物.AI成立八個月就成為獨角獸公司,2024年創造近1400萬美元收入,其模型訓練成本僅為300萬美元,遠低於GPT-4的8000萬到1億美元。阿里巴巴的千問也大幅降低了大型語言模型的成本。
美國AI初創企業Perplexity首席執行官阿拉文德·斯里尼瓦斯說:“需求是發明之母。因為他們必須想出變通辦法,結果實際上構建出了效率更高的東西。”
美國《紐約時報》也在1月24日的文章中寫到,深度求索開發的AI系統可與OpenAI和谷歌等公司的尖端聊天機器人相媲美,能做到這點本已是一個里程碑,但這個名為DeepSeek-V3的大模型背後的團隊描述了一個更大的進步——他們在訓練該系統時只用了領先人工智能公司用的高度專業化計算機芯片的一小部分。
自從OpenAI在2022年發布了ChatGPT,引發人工智能熱潮以來,許多專家和投資者普遍認為,如果不投入數億美元購買人工智能專用芯片的話,沒有公司能與行業領軍者競爭。
世界領先的人工智能公司用超級計算機來訓練它們的聊天機器人,這些超級計算機需要多達1.6萬個芯片,甚至更多。但DeepSeek的工程師卻說,他們只用了約2000個英偉達生產的專用芯片。
這些芯片是美中激烈技術競爭的核心。隨著美國政府努力保持本國在全球人工智能競爭中的領先地位,它正在試圖對能出售給中國以及其他競爭對手的高性能芯片施加限制。
可如今,DeepSeek大模型的表現讓人們對美國政府貿易限制的意外後果產生了質疑。
DeepSeek聊天機器人能回答問題、解決邏輯問題,並編寫自己的計算機程序,其能力不亞於市場上已有的任何產品。關鍵在於,其造價非常低,打破了只有最大的科技企業(全都在美國)才能制造出最先進的人工智能系統的普遍觀念。
根據中國工程師的說法,他們只花了約600萬美元的原始計算能力就訓練了新模型,不到科技巨頭Meta訓練其最新人工智能模型所耗資金的十分之一。
喬治華盛頓大學專門研究新興技術和國際關系的助理教授傑弗里·丁(音)表示,中國進口芯片受到限制,迫使DeepSeek工程師“更有效地訓練大模型,以讓其仍有競爭力”。
多倫多的技術顧問魯文·科恩從去年12月下旬起一直在使用DeepSeek-V3。他說,該模型與OpenAI、谷歌,以及舊金山初創公司Anthropic的最新系統能力相當,而且使用起來便宜得多。
“DeepSeek是讓我省錢的辦法,”他說,“這正是像我這樣的人想使用的技術。”
“深度求索的誕生,說明了為什麼特朗普很難打贏貿易戰。”1月9日,美國喬治梅森大學經濟系教授泰勒·考恩在彭博社刊文稱,由於美國限制對華出口芯片,深度求索等中企無法獲得最新的尖端芯片,因此不得不尋找其他更便宜的方法來訓練其模型,並“間接導致了中國重要創新的出現”。
1月23日,英媒《金融時報》刊文《深度求索等中國初創企業正在挑戰全球AI巨頭》,同樣對深度求索給予高度評價。
美國南加州大學古爾德法學院法學教授張湖月(Angela Zhang)在文中提到,深度求索並非孤例。自去年年中以來,阿里巴巴、騰訊、字節跳動等中國科技公司一直在穩紮穩打,逐步縮小與美國同行的差距,在能力上與他們匹敵,在成本效率上超越他們。
“中國在效率方面的成就並非偶然。這是中國對美國及其盟友不斷升級的出口限制的直接回應。”張湖月認為,“美國限制中國獲取先進的AI芯片,卻無意中刺激了中國的創新。”
文章稱,這同時暴露了美國旨在阻礙中國AI發展的出口管制的局限性。雖然這些措施可能會造成短期幹擾,但隨著中國不斷創新以適應,其影響只會逐漸減弱。
“對於美國政策制定者來說,一個難以接受的事實是,嚴格的出口管制迫使中國科技公司變得更加自力更生,從而推動了原本可能不會發生的突破。”文章如此寫道。
“深度求索的崛起生動地提醒我們,限制可以促進創新。”文章最後向美國政府提出疑問,“對於特朗普的新政府來說,這提出了一個令人不安的問題:對中國實施越來越嚴厲的制裁是否會適得其反,加速他們原本想要壓制的進步?”
“深度求索的誕生,說明了為什麼特朗普很難打贏貿易戰。”
1月9日,美國喬治梅森大學經濟系教授泰勒·考恩也在彭博社刊文稱,由於美國限制對華出口芯片,深度求索等中企無法獲得最新的尖端芯片,因此不得不尋找其他更便宜的方法來訓練其模型,並“間接導致了中國重要創新的出現”。