| 人工智能功能 |
| 送交者: mingcheng99 2025年06月18日21:35:03 於 [五 味 齋] 發送悄悄話 |
|
2025年6月初,蘋果公司發布了一項引發廣泛關注的研究,題為《思維的幻象:從問題複雜度視角理解推理模型的優勢與局限》。研究指出,當前被稱為“模擬推理模型(Simulated Reasoning Models, SR)”的AI系統——如OpenAI的o1與o3、DeepSeek-R1,以及Claude 3.7 Sonnet Thinking——在面對需要系統性思維的全新問題時,其輸出更像是對訓練數據中模式的匹配,而非真正的邏輯推理。 研究團隊由Parshin Shojaee與Iman Mirzadeh領銜,成員還包括Keivan Alizadeh、Maxwell Horton、Samy Bengio 和 Mehrdad Farajtabar。他們將這些“大型推理模型(Large Reasoning Models, LRMs)”置於四種經典邏輯難題中進行測試:
這些問題從極易(如一片圓盤的漢諾塔)逐步升級到極難(如20片圓盤的漢諾塔,需超過百萬步移動)。 研究發現,儘管這些模型在中等複雜度任務中表現尚可,但一旦問題複雜度上升,其表現會急劇下降甚至崩潰。即使研究人員在提示中提供了解題算法,模型也無法穩定執行邏輯步驟。這與2025年4月美國數學奧林匹克(USAMO)的一項研究結果一致:這些模型在面對全新數學證明題時得分極低,幾乎沒有模型能完成完整的邏輯推導。 這項研究不僅挑戰了“AI是否真的在思考”的觀念,也為未來構建真正具備推理能力的AI模型提供了重要參考。
研究人員指出:“當前的評估主要集中在既定的數學和編程基準上,強調的是最終答案的準確性。”換句話說,如今的測試更關注模型是否給出了正確答案,而不是它是否通過真正的推理過程得出該答案——很可能只是從訓練數據中模式匹配而來。 最終,這項研究的結果與美國數學奧林匹克(USAMO)在2025年4月發布的研究高度一致:這些AI模型在面對全新的數學證明題時,表現極差,大多數模型的正確率低於5%,只有一個模型達到了25%,而在近200次嘗試中,沒有一次成功完成完整的證明。 兩項研究都記錄了一個關鍵現象:當問題需要持續、系統性的推理時,模型的性能會嚴重下降。這表明,儘管這些AI系統在熟悉任務中表現出色,但在真正需要“思考”的新問題面前,它們仍然顯得力不從心。 知名AI懷疑論者加里·馬庫斯(Gary Marcus)長期以來一直主張:神經網絡在處理“分布外問題”(out-of-distribution generalization)時存在嚴重困難。在蘋果公司最新發布的研究中,他稱這些結果對大型語言模型(LLMs)來說是“相當毀滅性的”。 馬庫斯指出,即使研究人員為模型提供了解決漢諾塔問題(Tower of Hanoi)的明確算法,模型的表現依然沒有改善。他寫道:“LLMs 連漢諾塔都無法可靠解決,實在令人尷尬。”他還提到,早在1957年,AI先驅赫伯特·西蒙(Herb Simon)就已經成功解決了這個問題,而如今網絡上也有大量現成的算法可供參考。 研究共同負責人伊曼·米爾扎德(Iman Mirzadeh)進一步指出,這一現象表明這些模型的“推理過程並不真正具備邏輯性和智能性”。 這項研究為馬庫斯多年來的批評提供了新的實證支持,也再次引發了關於AI是否真正“思考”的深層討論。 Figure 4 from Apple's "The Illusion of Thinking" research paper. Credit: Apple
知名AI懷疑論者加里·馬庫斯(Gary Marcus)長期以來一直主張:神經網絡在處理“分布外問題”(out-of-distribution generalization)時存在嚴重困難。在蘋果公司最新發布的研究中,他稱這些結果對大型語言模型(LLMs)來說是“相當毀滅性的”。 馬庫斯指出,即使研究人員為模型提供了解決漢諾塔問題(Tower of Hanoi)的明確算法,模型的表現依然沒有改善。他寫道:“LLMs 連漢諾塔都無法可靠解決,實在令人尷尬。”他還提到,早在1957年,AI先驅赫伯特·西蒙(Herb Simon)就已經成功解決了這個問題,而如今網絡上也有大量現成的算法可供參考。 研究共同負責人伊曼·米爾扎德(Iman Mirzadeh)進一步指出,這一現象表明這些模型的“推理過程並不真正具備邏輯性和智能性”。 蘋果團隊的研究揭示了一個令人深思的現象:模擬推理模型(Simulated Reasoning Models, SR)在面對不同難度的任務時,其表現與“標準”語言模型(如 GPT-4o)存在顯著差異。 在簡單任務中(例如僅有幾片圓盤的漢諾塔),標準模型反而表現更好,因為SR模型傾向於“過度思考”,生成冗長的推理鏈條,反而導致錯誤答案; 在中等難度任務中,SR模型的系統性推理方式展現出優勢; 但在真正複雜的任務中(如10片以上圓盤的漢諾塔),兩類模型都徹底失敗,即使給予充足的時間和資源,也無法完成解題。 研究還提出了一個令人意外的現象,稱為“反直覺的擴展極限(counterintuitive scaling limit)”:隨着問題複雜度上升,SR模型一開始會增加“思考”內容(即生成更多推理token),但超過某個閾值後,反而減少推理努力,即使計算資源仍然充足。 更令人困惑的是,模型的失敗方式並不一致。例如,Claude 3.7 Sonnet在漢諾塔中能連續完成100步正確操作,卻在更簡單的河流過渡問題中僅走了5步就失敗。這表明模型的失敗可能與任務類型有關,而不僅僅是計算能力或複雜度的問題。
Figure 6 from Apple's "The Illusion of Thinking" research paper. Credit: Apple 觀點分歧正在浮現。儘管蘋果的研究指出當前AI模型在複雜推理任務中存在根本性局限,但並非所有研究者都認同這一結論。 多倫多大學經濟學家凱文·A·布萊恩(Kevin A. Bryan)在社交平台X上表示,這些局限可能並非源於模型本身的能力不足,而是出於訓練策略的刻意限制。 他寫道:“如果你讓我在五分鐘內解決一個需要我用一小時紙筆推演的問題,我大概率會給出一個近似解或啟發式答案。這正是當前具備‘思考能力’的基礎模型在強化學習(RL)中被訓練去做的事。” 布萊恩進一步指出,雖然蘋果研究強調模型在複雜任務中的“崩潰”,但實際上,行業內部的基準測試顯示:只要允許模型使用更多推理token,其性能幾乎在所有任務領域都會提升。然而,為了避免模型在簡單問題上“過度思考”,實際部署時往往人為限制了推理長度和計算資源。 軟件工程師肖恩·古德克(Sean Goedecke)在其博客中對蘋果的研究提出了類似批評。他指出,當面對需要超過1000步操作的漢諾塔問題時,DeepSeek-R1模型“立即判斷‘手動生成所有這些步驟是不可能的’,因為這需要跟蹤上千次移動”。於是模型開始“兜圈子”試圖尋找捷徑,最終失敗。古德克認為,這種行為更像是模型主動選擇不嘗試,而不是能力不足。 其他研究者也質疑:用邏輯謎題來評估大型語言模型(LLMs)是否合理。獨立AI研究者西蒙·威利森(Simon Willison)在接受《Ars Technica》採訪時表示,用漢諾塔來測試LLMs“本身就不是一個明智的應用方式”,無論是否涉及推理。他進一步指出,模型的失敗可能只是因為上下文窗口(context window)限制,即模型可處理的文本長度不夠,而非真正的推理能力缺陷。 威利森還認為,這篇論文之所以引發廣泛關注,更多是因為“蘋果質疑AI是否會思考”這個吸睛標題,而非其研究內容本身的深度。他將其稱為“可能被誇大的研究”。 這些觀點提醒我們,在評估AI推理能力時,測試方法本身的設計與假設同樣值得反思。 蘋果研究團隊本身也在論文的“局限性”部分中提出了重要提醒:不要對研究結果過度外推。他們指出,所使用的邏輯謎題環境僅代表推理任務中的狹小一隅,並不能全面反映現實世界中多樣化、知識密集型的推理問題。 此外,研究也承認,推理模型在“中等複雜度”任務中確實展現出性能提升,並且在某些現實應用中依然具有實用價值。這表明,儘管當前模型在高複雜度任務上存在明顯瓶頸,但它們並非一無是處,而是在特定範圍內仍具備可觀的能力。 換句話說,這項研究更像是一面鏡子,反映出當前AI推理模型的邊界與潛力,而不是一紙“否定判決”。 影響仍在爭議之中 這兩項研究是否徹底摧毀了關於AI推理模型可信度的主張?未必如此。 更合理的解讀可能是:這些研究表明,當前模擬推理模型(SR models)所依賴的“擴展上下文推理技巧”,並非通往通用智能(AGI)的可行路徑。換句話說,若要實現更強大的推理能力,可能需要根本性的架構創新,而不僅僅是對現有方法的微調或堆疊。 正如西蒙·威利森(Simon Willison)所指出的,蘋果這項研究在AI社區引發了極大的震動。生成式AI本身就是一個高度爭議的話題,許多人在其通用性與智能性問題上持有極端立場:
這場爭論不僅關乎模型性能,更觸及了AI未來發展方向、評估標準與社會信任等深層議題。它提醒我們:在通往真正“會思考”的AI之路上,技術突破之外,還需要哲學、倫理與工程實踐的共同演進。 |
|
|
![]() | |
|
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2024: | 初中物理附加題:複合弓上的滑輪有什麼 | |
| 2024: | 美國一直是歐洲的工具,村霸是歐洲,美 | |
| 2023: | 中國出土的2400年前勾踐劍vs.德國出土 | |
| 2023: | 皮教授有個問題,就是不太會看人,可能 | |
| 2022: | 一句話。 中國文化根本就沒有給女性最 | |
| 2022: | 系統性女性欺辱又一例 | |
| 2021: | 中國沒有毛主席就誰也玩不轉 | |
| 2021: | 稅收拯救資本主義世界 ZT+相關經濟學原 | |
| 2020: | 據博頓回憶,老川贊老習是“中國300年 | |
| 2020: | 為什麼會出現黑人命也是命的訴求?“法 | |








