送交者: 一劍破天 2024年06月05日10:04:45 於 [軍事天地] 發送悄悄話

斯坦福兩學生抄襲清華系大模型，是如何被發現的？對話打假者

　　來源：南方都市報

　　一則斯坦福大學Llama3-V團隊抄襲清華系大模型的消息，近日在海內外引發熱議。北京時間4日凌晨，該團隊的兩名成員Siddharth Sharma和Aksh Garg在社交媒體X上對這一學術不端行為公開致歉，並表示會將Llama3-V模型悉數撤下。

　　據悉，兩人是斯坦福大學計算機科學專業的本科生，自稱在團隊中的角色是模型推廣，而負責該項目代碼編寫的是畢業於南加利福尼亞大學Mustafa Aljadery。事發後，他們要求Mustafa提供原創性證明和訓練代碼，但未取得任何證據。

　　4日，南都記者嘗試聯繫率先發現清華系模型被套殼的網友，他表示只是做了一名開源社區工作者應該做的事。此次Llama3-V的抄襲行為，“相當於把可口可樂換成可日可樂就說是自己的項目”。

　　針對此事，面壁智能CEO李大海也作出回應，稱技術創新不易，呼籲共建開放、合作、有信任的社區環境。

　　用不到500美元訓練出超越SOTA水平的大模型？

　　事情起源於5月29日，斯坦福大學AI團隊發布Llama3-V開源模型，稱它比當前開源SOTA視覺語言模型LLaVA的性能提高了10%-20%，不僅尺寸比GPT-4V小近100倍，而且性能比肩GPT-4V、Gemini Ultra與Claude Opus。

　　Llama3-V團隊聲稱訓練出一個超越SOTA（意為“最新技術”的最佳狀態）水平的多模態大型模型，性能比肩多家。

　　更重要的是，該大模型的訓練成本僅不到500美元。這一驚艷的成果，再加上三位作者出色的專業和技術研發背景，讓Llama3-V一經發布就引發各方關注，並一度登上全球最大的開源大模型社區HuggingFace趨勢榜第五位。

　　不過很快，質疑聲便出現。6月2日下午，網友Magic Yang稱發現了一個“令人震驚”的事實：Llama3-V項目中有大量疑似抄襲MiniCPM-Llama3-V 2.5的內容，同時曬出了多項Llama3-V涉嫌抄襲的證據。

　　比如在模型結構和配置文件上，二者高度雷同，只是變量名不同。Llama3-V的代碼也幾乎完全照抄MiniCPM-Llama3-V 2.5，僅做了一些重新格式化和變量重命名，包括但不限於圖像切片、分詞器、重採樣器、數據加載等變量。

　　GitHub項目信息顯示，MiniCPM-Llama3-V2.5共有8B個參數，整體性能超越GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude3等專有模型，配備了增強的OCR和指令跟蹤能力，還可以支持英語、中文、法語等30多種語言的多模態對話。這款端測多模態開源模型，由清華大學自然語言處理實驗室與面壁智能合作開發，於今年5月20日推出。

　　南都記者嘗試聯繫這位揭露Llama3-V涉嫌抄襲的網友Magic Yang（知乎網名“社恐患者楊老師”），他向南都記者回顧了這場打假的過程。楊老師表示，最近正在幫助一名博士生做有關運動處方的項目，想選擇一個質量較好的開源模型作為微調的基座。此前他曾測試了MiniCPM-Llama3-V2.5，因此對MiniCPM的模型架構和代碼都相對熟悉。

　　後來他注意到，Llama3-V項目在HuggingFace上排名也非常靠前，且獲得了相關博主推薦，於是想進一步做測試。但在這過程中，他發現二者在模型架構和代碼上存在高度相似的情況，就此詢問了Llama3-V作者。結果對方避重就輕，並不正面回應，隨後更是將質疑帖子刪除，且隱藏了MiniCPM-Llama3-V 2.5的項目主頁。

　　這一系列的操作，令人生疑。6月2日下午，楊老師把所知的證據發到MiniCPM-V的Github項目主頁，並提醒面壁智能團隊關注。相關對話截圖顯示，Llama3-V項目作者最初否認抄襲，並稱他們的項目開始時間更早，只是使用了MiniCPM-V2的分詞器。

　　楊老師告訴南都記者，作為一個有大模型經驗的開發者，發現（抄襲行為）不難，但要證實不易。此事最終一錘定音，還是因為面壁智能團隊使用內部數據集“清華簡”做了對比測試。

　　“連錯的都一模一樣”，確信是套殼

　　南都記者注意到，6月2日深夜，面壁智能團隊證實了抄襲行為的存在。經核實，除了社區網友列出的證據外，還發現Llama3-V項目與MiniCP-Llama3-V 2.5一樣，可以識別出“清華簡”戰國古文字，“不僅對的一模一樣，連錯的都一模一樣”。

　　據面壁智能首席科學家、清華大學長聘副教授劉知遠介紹，“清華簡”的識別能力，是MiniCPM-Llama3-V 2.5研發時內置了一個彩蛋。這是該團隊花費數月從清華簡逐字掃描，人工標註而來的數據集，並未公開，由此“已經比較確信Llama3-V是對MiniCPM-Llama3-V2.5套殼。”

　　針對此事，面壁智能CEO李大海也發文稱，深表遺憾。“技術創新不易，好的成果希望被更多人關注和認可，但不是以這種方式。”李大海呼籲，大家共建開放、合作、有信任的社區環境。

　　劉知遠也表示，人工智能的飛速發展離不開全球算法、數據與模型的開源共享，讓人們始終可以站在SOTA（意為“最新技術”的最佳狀態）的肩上持續前進。這次開源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。

　　“開源共享的基石是對開源協議的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬，Llama3-V團隊無疑嚴重破壞了這一點。”同時他提到，Llama3-V團隊的三位作者中，有兩位是斯坦福大學本科生，未來還有很長的路，“如果知錯能改，善莫大焉”。

　　北京時間4日凌晨，捲入此次風波的兩名斯坦福大學本科生Siddharth Sharma和Aksh Garg在社交平台上解釋，稱該項目由三人發布，他們只在其中幫忙推廣模型，負責代碼編寫的是Mustafa Aljadery。事發後，他們曾嘗試聯繫Mustafa發布原創性聲明，並提供訓練代碼，但到目前為止還未看到任何證據。在這份聯合聲明中，兩人再次向原作者道歉，並稱對未盡職盡責確保Llama3-V的獨創性而感到失望，現已將所有對Llama3-V的引用都刪除了。

　　被推為主要責任方的Mustafa，是團隊中唯一的全職成員。其本碩畢業於南加利福尼亞大學，主攻深度學習和數學，是一名軟件工程師。截至目前，Mustafa尚未發聲。

　　兩名作者的解釋，尚不能平息質疑。斯坦福人工智能實驗室主任Christopher David Manning公開發文譴責這一抄襲行為，稱兩人藉口推脫，是拒不認錯的表現。

　　此番隨着原創者也下場打假，這場大模型抄襲風波將暫告一段落。

0%(0)

	實用資訊

回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐：海航獲五星
海外華人福利！在線看陳建斌《三叉戟》熱血歸回豪情築夢 高清免費看無地區限制

一周點擊熱帖

更多>>

一周回復熱帖

歷史上的今天：回復熱帖

2023:	六四犇牛節
2023:	亞洲聯邦之「百越家園自衛隊」
2022:	2022年妖怪第八定律
2022:	趙襄子到底是將智董事長的腦殼做成酒壺
2021:	將六四小共匪說成學生是為了沾儒生的光
2021:	80年代的新一輩要多麼無恥才能生下小韭
2020:	中國軍工總是技不如人？其實有項技術已
2020:	美軍兩代航母首次同航你能分辨出來嗎
2019:	越南空軍在越戰中搶到夢幻開局戰後為
2019:	越南展示新雷達：天線有10層樓高號稱能