設萬維讀者為首頁 廣告服務 聯繫我們 關於萬維
簡體 繁體 手機版
分類廣告
版主:白夫長
萬維讀者網 > 軍事天地 > 帖子
斯坦福兩學生抄襲清華系大模型,是如何被發現的?
送交者: 一劍破天 2024年06月05日10:04:45 於 [軍事天地] 發送悄悄話

斯坦福兩學生抄襲清華系大模型,是如何被發現的?對話打假者



  來源:南方都市報

  一則斯坦福大學Llama3-V團隊抄襲清華系大模型的消息,近日在海內外引發熱議。北京時間4日凌晨,該團隊的兩名成員Siddharth Sharma和Aksh Garg在社交媒體X上對這一學術不端行為公開致歉,並表示會將Llama3-V模型悉數撤下。

  據悉,兩人是斯坦福大學計算機科學專業的本科生,自稱在團隊中的角色是模型推廣,而負責該項目代碼編寫的是畢業於南加利福尼亞大學Mustafa Aljadery。事發後,他們要求Mustafa提供原創性證明和訓練代碼,但未取得任何證據。

  4日,南都記者嘗試聯繫率先發現清華系模型被套殼的網友,他表示只是做了一名開源社區工作者應該做的事。此次Llama3-V的抄襲行為,“相當於把可口可樂換成可日可樂就說是自己的項目”。

  針對此事,面壁智能CEO李大海也作出回應,稱技術創新不易,呼籲共建開放、合作、有信任的社區環境。

  用不到500美元訓練出超越SOTA水平的大模型?

  事情起源於5月29日,斯坦福大學AI團隊發布Llama3-V開源模型,稱它比當前開源SOTA視覺語言模型LLaVA的性能提高了10%-20%,不僅尺寸比GPT-4V小近100倍,而且性能比肩GPT-4V、Gemini Ultra與Claude Opus。

  Llama3-V團隊聲稱訓練出一個超越SOTA(意為“最新技術”的最佳狀態)水平的多模態大型模型,性能比肩多家。

  更重要的是,該大模型的訓練成本僅不到500美元。這一驚艷的成果,再加上三位作者出色的專業和技術研發背景,讓Llama3-V一經發布就引發各方關注,並一度登上全球最大的開源大模型社區HuggingFace趨勢榜第五位。

  不過很快,質疑聲便出現。6月2日下午,網友Magic Yang稱發現了一個“令人震驚”的事實:Llama3-V項目中有大量疑似抄襲MiniCPM-Llama3-V 2.5的內容,同時曬出了多項Llama3-V涉嫌抄襲的證據。

  比如在模型結構和配置文件上,二者高度雷同,只是變量名不同。Llama3-V的代碼也幾乎完全照抄MiniCPM-Llama3-V 2.5,僅做了一些重新格式化和變量重命名,包括但不限於圖像切片、分詞器、重採樣器、數據加載等變量。

  GitHub項目信息顯示,MiniCPM-Llama3-V2.5共有8B個參數,整體性能超越GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude3等專有模型,配備了增強的OCR和指令跟蹤能力,還可以支持英語、中文、法語等30多種語言的多模態對話。這款端測多模態開源模型,由清華大學自然語言處理實驗室與面壁智能合作開發,於今年5月20日推出。

  南都記者嘗試聯繫這位揭露Llama3-V涉嫌抄襲的網友Magic Yang(知乎網名“社恐患者楊老師”),他向南都記者回顧了這場打假的過程。楊老師表示,最近正在幫助一名博士生做有關運動處方的項目,想選擇一個質量較好的開源模型作為微調的基座。此前他曾測試了MiniCPM-Llama3-V2.5,因此對MiniCPM的模型架構和代碼都相對熟悉。

  後來他注意到,Llama3-V項目在HuggingFace上排名也非常靠前,且獲得了相關博主推薦,於是想進一步做測試。但在這過程中,他發現二者在模型架構和代碼上存在高度相似的情況,就此詢問了Llama3-V作者。結果對方避重就輕,並不正面回應,隨後更是將質疑帖子刪除,且隱藏了MiniCPM-Llama3-V 2.5的項目主頁。

  這一系列的操作,令人生疑。6月2日下午,楊老師把所知的證據發到MiniCPM-V的Github項目主頁,並提醒面壁智能團隊關注。相關對話截圖顯示,Llama3-V項目作者最初否認抄襲,並稱他們的項目開始時間更早,只是使用了MiniCPM-V2的分詞器。 

  楊老師告訴南都記者,作為一個有大模型經驗的開發者,發現(抄襲行為)不難,但要證實不易。此事最終一錘定音,還是因為面壁智能團隊使用內部數據集“清華簡”做了對比測試。

  “連錯的都一模一樣”,確信是套殼

  南都記者注意到,6月2日深夜,面壁智能團隊證實了抄襲行為的存在。經核實,除了社區網友列出的證據外,還發現Llama3-V項目與MiniCP-Llama3-V 2.5一樣,可以識別出“清華簡”戰國古文字,“不僅對的一模一樣,連錯的都一模一樣”。

  據面壁智能首席科學家、清華大學長聘副教授劉知遠介紹,“清華簡”的識別能力,是MiniCPM-Llama3-V 2.5研發時內置了一個彩蛋。這是該團隊花費數月從清華簡逐字掃描,人工標註而來的數據集,並未公開,由此“已經比較確信Llama3-V是對MiniCPM-Llama3-V2.5套殼。”

  針對此事,面壁智能CEO李大海也發文稱,深表遺憾。“技術創新不易,好的成果希望被更多人關注和認可,但不是以這種方式。”李大海呼籲,大家共建開放、合作、有信任的社區環境。

  劉知遠也表示,人工智能的飛速發展離不開全球算法、數據與模型的開源共享,讓人們始終可以站在SOTA(意為“最新技術”的最佳狀態)的肩上持續前進。這次開源的MiniCPM-Llama3-V 2.5就用到了最新的Llama3作為語言模型基座。

  “開源共享的基石是對開源協議的遵守,對其他貢獻者的信任,對前人成果的尊重和致敬,Llama3-V團隊無疑嚴重破壞了這一點。”同時他提到,Llama3-V團隊的三位作者中,有兩位是斯坦福大學本科生,未來還有很長的路,“如果知錯能改,善莫大焉”。

  北京時間4日凌晨,捲入此次風波的兩名斯坦福大學本科生Siddharth Sharma和Aksh Garg在社交平台上解釋,稱該項目由三人發布,他們只在其中幫忙推廣模型,負責代碼編寫的是Mustafa Aljadery。事發後,他們曾嘗試聯繫Mustafa發布原創性聲明,並提供訓練代碼,但到目前為止還未看到任何證據。在這份聯合聲明中,兩人再次向原作者道歉,並稱對未盡職盡責確保Llama3-V的獨創性而感到失望,現已將所有對Llama3-V的引用都刪除了。


  被推為主要責任方的Mustafa,是團隊中唯一的全職成員。其本碩畢業於南加利福尼亞大學,主攻深度學習和數學,是一名軟件工程師。截至目前,Mustafa尚未發聲。

  兩名作者的解釋,尚不能平息質疑。斯坦福人工智能實驗室主任Christopher David Manning公開發文譴責這一抄襲行為,稱兩人藉口推脫,是拒不認錯的表現。

  此番隨着原創者也下場打假,這場大模型抄襲風波將暫告一段落。


0%(0)
0%(0)
標 題 (必選項):
內 容 (選填項):
實用資訊
回國機票$360起 | 商務艙省$200 | 全球最佳航空公司出爐:海航獲五星
海外華人福利!在線看陳建斌《三叉戟》熱血歸回 豪情築夢 高清免費看 無地區限制
一周點擊熱帖 更多>>
一周回復熱帖
歷史上的今天:回復熱帖
2023: 六四犇牛節
2023: 亞洲聯邦之「百越家園自衛隊」
2022: 2022年妖怪第八定律
2022: 趙襄子到底是將智董事長的腦殼做成酒壺
2021: 將六四小共匪說成學生是為了沾儒生的光
2021: 80年代的新一輩要多麼無恥才能生下小韭
2020: 中國軍工總是技不如人?其實有項技術已
2020: 美軍兩代航母首次同航你能分辨出來嗎
2019: 越南空軍在越戰中搶到夢幻開局 戰後為
2019: 越南展示新雷達:天線有10層樓高號稱能