舒暢:人工智能競爭的方向和趨勢
今天在網上看到一段視頻,顯示當前中美人工智能競賽的新一輪博弈。最近國內也有多家媒體報道 DeepSeek 發布的 V3.2 / V3.2-Special 版本,並宣稱該版本在若干公開的推理與 agent 基準測試中領先或與頂級閉源模型(如 GPT-5、Gemini 3.0 Pro)處於可比水平。部分報道還指出,DeepSeek-V3.2-Special 在一些數學與編程競賽相關題型上達到了所謂“金牌級”表現,並強調這些成績並非針對競賽做的專門微調。與此同時,路透等國際媒體也關注到 DeepSeek 在國內的熱度、生態擴張與合規適配等問題,但其報道語氣更為謹慎,強調需要獨立驗證與監管背景的考量。
我們該如何看這些“驚人戰績”——先說結論
有報道:確實存在國內媒體引用 DeepSeek 官方技術報告,報道該團隊公布的各項基準成績與模型頁面(ModelScope 等)。這說明這些成果是公開宣稱且可檢索的,不是憑空捏造。
但需區分措辭與含義:媒體所說的“拿下 IMO/CMO/ICPC/IOI 金牌”通常是用來形容模型在對應題目或題組上達到與人類金牌選手同等或相近的水平,而並非競賽官方把 AI 列為參賽主體並授予正式金牌。換言之,報道反映的是“達到金牌水準”,但並不能得出了這樣的結論就是因為他拿到了多個國際奧林匹克數學競賽的金牌他是各個方面就超過了 gpt five和Gemin 3.
可重複驗證性尚待加強:事實上目前對這些基準分數的獨立復現主要依賴官方報告與少數第三方測評(社區復現或技術博客)。學術界經過同行評審的、廣泛認可的獨立驗證尚未形成一致結論。因此,把這些報道當作“高度可疑的謠言”也不合適,但把它們當作“完全確鑿、無需再證”的事實也為時尚早。
我個人認為,要成為業內領先的 AI,必須具備三個核心要素:
(一)龐大且高質量的數據;(二)強大的算力;(三)創新而高水平的算法。
從現實條件看,中國在數據規模與豐富度上具有天然優勢:十四億人口、廣泛的數字化應用與多樣化業務場景,提供了豐富的訓練素材與細分場景數據;在算力方面,短期內趕超全球頂尖硬件供應鏈仍有難度(高端 GPU 仍以少數廠商為主導),因此若 DeepSeek 真能在能力上接近或超越西方競爭對手,最可能的解釋是算法創新 + 數據優勢發揮了關鍵作用,但中國的大型數據庫可能更多的是社會監控方面的而並非自然科研方面的。 但不可否認由於人工智能這到底是怎樣利用這個數據庫去進行研究的這是一個非常深刻的而且到目前為止人們還沒有搞清楚的問題即便是如此如果有更聰明的算法和更針對性的訓練,也許是可以彌補客觀存在的硬件差距。
另一個值得注意的現象是:AI 已經開始進入數學研究的實際工作流。我最近也看到了有關著名數學家陶哲軒(Terence Tao)及其團隊嘗試用先進 AI 工具(如基於大型模型的數學輔助系統、AlphaEvolve 等)來輔助研究的報道。這類工具在實踐中表現出能夠:
幫助探索新的數學結構與模式;
生成候選證明或證明草稿;
協助形式化證明與局部驗證;
在某些情況下顯著加速原先耗時很長的推導工作。
但需要強調:目前的共識是 AI 是輔助工具而非獨立發明者。AI 生成的證明草稿或洞見,仍需由人類專家進行嚴格審查、補充與形式化,才能成為數學界認可的“最終證明”。
短視頻與媒體頭條常把技術進展放大或用激烈措辭吸引眼球,這會造成公眾判斷的偏差。面對 DeepSeek 或任何新模型的“驚人成績”,我們應當採取三步走的判斷方式:
查證原始報告與模型頁面,確認是否有公開技術文檔與評測方法;
關注是否有獨立第三方復現或學術界同行評審;
區分“達到金牌水平”與“競賽官方授予金牌”兩種不同語義,避免混淆。
儘管需要謹慎,但不可否認的是——不論是 DeepSeek 還是 Gemini,從整體趨勢看,人工智能被更廣泛地使用於醫學研究物理化學數學方方面面並且進一步的快速的推動科學進展,已經成為必然的趨勢,中美兩國之間的這種新模式直銷的競爭必然會越來越激烈,而創新也越快速,最終受益的是全社會的科研效率與知識發現能力。