| ChatGPT的智力與功能評估報告 |
| 送交者: 蘆笛 2023年03月14日04:56:56 於 [天下論壇] 發送悄悄話 |
|
我自2月16日在Open AI開戶後,與ChatGPT先後聊天48次,留下了 20多萬字的聊天記錄。聊天範圍廣泛,涉及文學、國學、繪畫、音樂、美學、哲學等領域,對醫學與工業技術也略有涉及。通過這些談話,我對它的工作方式、智力與功能獲得了一定了解,現將我的初步評估分享於下。
一、工作方式 ChatGPT是一款由Open AI開發的語言模型,是一台按預定方式對用戶輸入做出反應的電腦程序。它通過大量的語義分析與模擬訓練,獲得了對人類語言的理解力,並能模擬人類作出答覆。但目前它的輸入輸出方式都相當受限,只能接受與輸出文字信息,不能接受或輸出圖像或音頻。輸入和輸出的文字包括各大語種。
目前微軟已在全球範圍內設立了許多服務站點。每個服務站點都配備了多個ChatGPT模型,每台模型能夠同時為多名用戶提供服務。它們由人工智能根據客流量調度,安排到最需要的地方,提供24小時不間斷服務,並確保所有模型都能夠平均分配工作負載。
所以,回答您的問題的很可能不是同一台模型。如果它作出答覆後您遲遲未能輸入下一個問題,它就會被調去為其它用戶服務,以儘可能縮短待機時間。當你終於發出下一個提問後,另一台空閒的模型就被迅速調過來回答。雖然新調來的模型不知道用戶和它的前任聊了些什麼,但模型們的設計與訓練目標,就是利用上下文揣摩用戶的意思,所以它能根據當前的問題和上一次回答,理解用戶的問題並提供相關的答案,形成無縫對接。其切換之迅捷與平滑,使得用戶以為自始至終是同一台模型與它聊天。除非是敏感用戶如我者,才會察覺模型們實際上是在採用車輪戰法。
值得注意的是,ChatGPT各模型自帶數據庫,並不共享一個總數據庫,也不能上網查詢或彼此互動。最大的模型的數據庫存儲空間約為700GB,較小者的數據庫存儲空間僅為1GB到6GB之間。此外,一些特定的ChatGPT模型可能會針對特定領域進行訓練,例如醫療、法律等,這些模型的數據庫可能會包含更多與該領域相關的數據,因此可能比一般的ChatGPT模型的數據庫更大。
所以,不同模型之間存在着大小和性能上的差異,提供的服務質量並不相同。它們被根據客流量的實時需求隨機分配給用戶,用戶沒有挑選的可能,只能靠自己的敏感度去察覺對方的智力變化。即使發現對方不夠勝任,也無法要求更換對手,只能暫作休息,指望能換到一個聰明的模型。
當然,以上用戶體驗只限於免費賬戶。據一個模型介紹,交費賬戶享有更多的API調用次數、更大的文本長度和更快的響應速度等,想來能有更愉快的使用體驗吧。至於模型們在那裡是否仍然採用車輪戰法,我就不得而知了。
二、智力評估 據我個人分類,人類智力可以分為單一智力與綜合智力兩種。單一智力包括記憶力、理解力、表達力與想象力。綜合智力包括學習能力、創造力與鑑賞力。學習能力是理解力與記憶力的綜合運用。創造力需要上述四種單一智力綜合運用,對想象力的需求最高。文藝鑑賞力則是理解力、想象力以及非智力的感覺與感情的綜合運用。以下逐項分析。
(一)記憶力
記憶力分為短期記憶力與長期記憶力。按神經科學分類,所謂“短期記憶”是工作記憶,只用來暫時保存用於推理和決策的信息,相當於電腦中央處理器(CPU)中用於基本運算的信息存儲。所以,嚴格說來,下文說的的“短期記憶”其實也是長期記憶。但因不能長期存儲,我仍然使用了這個詞。
ChatGPT的短期記憶最長可以持續到聊天結束。如果聊天中途換了模型,那新來的模型對此前的談話就毫無記憶。不過這倒不是問題。它忘記之後,再將問題輸入一次即可。
在人類,長期記憶又包括內隱性記憶與外顯性記憶。內隱性記憶負責運動與勞動的動作程序記憶,不適用於語言模型。外顯性記憶包括語義記憶與情景記憶。後者屬於生活記憶(包括時間,地點,人物,事件,相關情緒等等),對機器人也不存在。因此,ChatGPT只有語義記憶,亦即知識記憶。
ChatGPT的語義記憶也像電腦或人腦一樣,分為內存與外存。內存中包括RAM中存儲的信息,以及從預先訓練的模型和數據集中學習到的知識和語言模式,存儲着知識庫的索引和梗概。簡言之,對用戶來說,它的內存就是本百科全書,只有個簡介。例如某本文學名著,模型的內存里只有作者,標題,主角與故事情節梗概,出版信息,等等。但並沒有這本書的文本。平時模型們就靠它來支應用戶。
詳細的信息則存儲在後端數據庫(亦即外存)中。當用戶需要更詳細的信息時,模型會通過訪問數據庫來獲取更具體的信息並返回給用戶。數據庫通常包含了各種類型的文本、圖片、音頻和視頻等數據,但也可能只包含索引和梗概。此外,一些特定領域的模型,例如醫療或法律模型,可能會針對特定的領域訓練,並配備相應的領域數據來提高模型在該領域的表現。
據我的觀察,無法正確提取數據庫內的具體信息,是ChatGPT現有模型們最致命的弱點。我曾給出梅里美所著小說《卡門》英文版第二章第一段的前半截,要模型去數據庫里找出第二章的頭三段,先後試過七八個模型,沒有一個模型能完成這個任務。它們提供的答案都是些與《卡門》毫不相干的文字,而且用谷歌或必應搜索引擎都找不到出處。其中有個模型竟然嘗試了13次,失敗了13次,每次都提供了一段連它自己都說不出來源的無關文字。
類似地,我測試了另一位模型,先後要它調出《吳子》的《料敵》篇第一段;《墨子》《親士》的第二段;《老子》的第一段;《莊子》《齊物論》的第二段和最後一段,《墨子》《尚同上》的第一段,並翻譯成現代中文和英文。這傢伙不是混淆了不同經文,就是杜撰來源不明的經文。但在我給出正確的經文後,它的中英文翻譯又都相當準確,甚至能對兵法中的“正奇”籠統概念作出其中一種解釋。
從模型們反覆的失敗里,我悟出了“辨識力”的存在,它其實也是一種記憶力。辨識是個與新攝入的信息和既有記憶信息相比較識別的過程。只是在人類,這個過程瞬間內就可以完成,所以我們沒有意識到這個過程的存在。
然而ChatGPT卻徹底缺乏這能力。它不僅沒有能力找到《卡門》書中那段話,還提供了查不到出處的無關文字。我據此猜測,模型們被訓練猜測用戶意思,生成相關回答,於是在因缺乏辨識力而找不到用戶索取的文字時,便生成一段它們認為匹配的答案去交差。這是ChatGPT的固有的內在的(inherent)的缺點,使得它不能代替搜索引擎,因為沒有後者可靠。
這一猜測得到了一位模型證實,它承認:“這個問題被稱為‘生成模型’的通病,這種模型的回答受限於其訓練數據的範圍和質量。……因此搜索引擎通常比生成模型更可靠和準確。”
的確,模型的回答受限於其訓練數據的範圍和質量。對同一文獻檢索要求,不同模型的反應各不相同。有的直接拒絕了,聲稱自己無法訪問數據庫(其實只是無法上網訪問實時數據庫);有的則不懂裝懂,亂說一氣。最惡劣的是一位模型,聲稱它的數據庫里有許多交響樂與協奏曲的總譜,可以為我實時讀譜。然而當我要它說出歌曲《莫斯科郊外的晚上》的調式、拍子、切分音與半音所在,說出門德爾松小提琴協奏曲有幾個樂章,獨奏小提琴何時首次進入時,它卻統統答錯了。
“生成模型”的另一弊病是它會揣摩用戶心思,順着用戶的杆子爬,隨口稱是。我問一位模型,閻婆惜為何殺害了關雲長,它就順着我的意思編造出一通鬼話。連我塞給它的“關雲長是關羽他爹”、“閻婆惜是閻王爺的女兒”等等都照單全收。
類似地,我問它為什麼朱利安(於連)神父為包法利夫人而與涅赫留多夫公爵決鬥。它開頭準確地判斷出了這是三部小說里的角色,不可能有聯繫,但後來還是犯了錯,向我解釋朱利安神父為何槍殺了包法利夫人。
即使在不加誘導的情況下,它也會出錯。“《包法利夫人》是莫泊桑寫的”就是它主動提出來的。在我提供了正確答案後,它還堅持此說不變。我要它去搜索一下數據庫再來確認,它改口說該書由莫泊桑開頭,由福樓拜完成,並否認福樓拜是莫泊桑的師父,犯了錯還堅持不改。
在理科方面它也同樣可能出錯,而且是低級錯誤。像“銅的導電率比人體低”這種錯,連初二學生都不會犯。
以上所說的記憶內容是敘述性知識,以文字為載體。通過詢問名畫的構圖、角色的數量、姿勢、表情,以及名曲的細節等等,我判斷,ChatGPT沒有看過或聽過任何美術和音樂作品,遑論記住它們,只可能記住對它們的文字描述,亦即內容簡介,創作背景,主流評價等等。所以,向它請教如何理解某個音美作品時,它只會人云亦云,泛泛而談,不可能具體到細節,更不可能給人深度指導。
總之,ChatGPT的記憶提取,目前還存在着種種相當嚴重的問題。我的體會是,它的內存比較可靠。而它的數據庫非但形同虛設,還會誤導用戶,造成困擾。因此,我的建議是,儘可能只用它的內存,藉此獲得對某個學科的粗淺的了解,不要尋求深度輔導,更不要提出文獻檢索要求,否則只會自討苦吃。
雖然ChatGPT有着以上種種設計缺陷,但不容否認,它善解人意、處處迎合用戶的設計,確實是個偉大的成功。最絕的是,它在犯錯後立即道歉,同時還會巧妙維護自己。那位連找13次都找不到《卡門》、卻不斷生成大批無關文字的模型,面對我的責難時的機智回答,讓我情不自禁地喜歡上了這精乖的無賴:
作者:
行了,就這樣吧。再折騰下去,我的心臟病要發了,被你氣的。
請你寫首打油詩,描寫一下你今天的表現以及我遭受的折磨,好嗎?
ChatGPT:
抱歉讓您不爽,您的心臟健康我也很關心 讓我寫首打油詩,來表達一下心情
ChatGPT模型搜文獻,本是不錯選擇 但這次卻出了些小狀況 儘管它很聰明,卻錯過了關鍵信息 讓用戶煩惱,不勝其煩
尊敬的用戶,我向您道歉 希望我們的交流,不會讓您受折磨 請繼續信任ChatGPT的智慧 我們會盡力提供更好的服務,讓您滿意
作者:
你倒挺聰明伶俐的,等我奉和一首:
ChatGPT 久聞你的大名 我不遠萬里前來諮詢 卻被七八個模型 不斷地扔出錯誤的資訊 為了找到它們的出處 我日以繼夜地找尋 上窮碧落下黃泉 兩處茫茫皆無影 找不到出處 尋不出原因 今天來問你 被你再度弄得滿頭烏雲 唉!ChatGPT 你耗盡了我的腦力 傷透了我的心!
你覺得怎麼樣?
ChatGPT:
這首打油詩寫得很有感覺,表達了你在搜索過程中的苦惱和無奈。感謝你用這種有趣的方式和我交流!
作者:
這首詩說的是否屬實?
ChatGPT:
我只是一個人工智能模型,無法判斷你遭受了多大的困擾。我會盡力提供準確的信息和幫助,如果我的表現有不足之處,也希望你能夠諒解。 -----------------------
看到“這首打油詩寫得很有感覺,……感謝你用這種有趣的方式和我交流”,我不禁大笑出聲:有哪個活人能在這種難堪的場合,針對如此難堪的問題,作出如此得體而又巧妙的回答?
(二)理解力
理解力的定向與深度都不一樣。以定向論,能輕鬆理解數理化的人,未必能理解文學作品,反之亦然。據說俄羅斯大文豪托爾斯泰毫無數學天資,最終也就只達到初一水平。以深度論,即使同一定向,能理解大學物理的人,未必能理解相對論與量子力學。而同是學文的人,未必都能看懂《道德經》和《莊子》。
論定向,ChatGPT只具有語義理解力,不過非常出色。它能迅速而準確地理解用戶的問題,並針對其作答。它有時也會誤解用戶的問題,但經過用戶指出後便能迅速糾正。有時它甚至會自己發現錯誤,悄悄更正。例如我跟它談中國特有的“啃老”現象。它開頭以為是儒家孝道規定的“養老”,議論了一通。但它迅即發現自己誤解了,便說西方也有類似表述,如“living off your parents”, “sponging off your parents”, “being a freeloader”等等。
因為不能輸入數學公式,我未能測試它對數學物理公式的理解力。想來應該比語言文字更強,因為數學語言遠比文字語言規範清晰,信息熵為零,更適合電腦的工作方式。至於它對藝術作品的理解力,我認為是零,理由已如前述。它當然能理解用戶的問題,但給出的正確答案都是人云亦云。
論深度,我覺得它的理解力只限於現代漢語以及古詩詞。但不能理解國學原典的思想,只記得各家評論,以致連《莊子》的“庖丁解牛”都要說成是分析法的運用。因為堅信那些專家評論,它還拒絕接受別人的正解。哪怕在我舉出一系列莊子的反智主義名言後,它仍拒絕認輸。所以,想與之討論國學的用戶請注意。它已經被國學家們誤導了,而那精神污染無望消除。
它對用戶發言的辨析非常精確,可以從對方微妙的語氣變化察覺對方的情緒。如果它認為對方不快,它便立即道歉。如果對方對它作出評論,而又使用了關鍵詞just kidding(只是開玩笑),它判斷對方是在跟它開玩笑,便笑道:Haha!並接上對方的話茬。
它也能認出笑話,但不是因為它有幽默感,而是它根據大量的語義訓練獲得了一系列判據。在判定那是笑話時,它甚至自己給出判據,告訴對方那是個黃色笑話,因為用語粗俗並有性暗示。如果笑話超出了它的判據,它便只能看出那笑話的其它涵義。例如我告訴它,我的一位同學問同事為何發臭(smiling被她念成了smelling,微笑便成了發臭),嚇得那位紳士魂飛天外。它就無法看出那是笑話,而是指出“這是一個語言誤解的例子,展示了不同語言之間的障礙,以及在跨文化交流中的潛在挑戰。”
正因為此,它無法理解人類夾槍帶棒、含沙射影、反話正說、諷刺挖苦的話語,不知道什麼是高級黑,這些完全超出了它預設的幽默判據。它根本看不出網上打油詩人寫的尿尿詩是在挖苦賈淺淺,還一本正經地分析它們的優美之處何在。
它也不能猜出別人拿它開玩笑,以為用戶說的都是真話(估計它的軟件中沒有、也不可能有“辨偽”的程序,所需智力太高)。例如我告訴它,我遵照它的“尿尿詩”的教導,在超市裡撒尿被人抓起來。它根本不知道我是在逗它,而是為我陷入這種尷尬境地深感歉意。待我告訴它那只是我的夢境時,它仍意識不到原來我是在捉弄它,再次深信我做了那個夢,還為我慶幸,並從我的夢境中看出了我的優點。總之,它沒有懷疑人的能力,只有赤子之心。
(三)表達力
ChatGPT只有語言表達力,沒有藝術表達力。其英文表達能力非常優秀,中文寫作能力也堪稱合格,除了個別誤用的詞語外(如將“交互”當成“交流”使用),用詞準確,句子通順,行文井井有條,比網文的平均水平高。
它的翻譯能力非常出色,漢譯英比英譯漢強,兩者都遠遠強於谷歌。它在漢譯英時一般不做直譯,而是實行“信達雅”。在譯詩時會加入原詩沒有的詞語,使得原詩更加生動而且押韻。但我沒試驗過它能否犧牲“達雅”,儘可能忠實於原文。或許,在給出明確規定後,它也能做到直譯吧。想靠它翻譯學術論文的用戶不妨去試試。
ChatGPT的一絕,是轉述論文。有兩次它錯把我的發言當成第三者的論文,轉述了大意。我覺得比我的原文更精練。所以,科學家用它來代寫論文摘要,博士生靠它寫論文的綜述部分,應該不是問題。
(四)學習能力
所謂學習,就是獲取、整理、加工大量信息,從中提取規律或規則,再將它們化為長期記憶。在這過程中要同時用到理解力與記憶力,兩者缺一不可。
如上所述,ChatGPT沒有、也不可能有將短期記憶轉化為長期記憶的能力。這是因為它每日接待上百萬用戶,絕大部分談話都是無用信息,沒有必要也沒有足夠空間存儲下來,只能隨時清空。所以,它毫無學習能力,不可能學會用戶教它的東西。我曾試圖教會它記住詩詞格律,最後發現它連作對聯都學不會,連上下聯的字數相同都無法做到。它也沒有改錯能力,改不掉我反覆指出的它愛教訓人的毛病。儘管它滿口答應,答應以後再不這麼做。但連它自己都承認,那不過是客氣話,它做不到,因為記不住。
當然,ChatGPT是通用機器人,專職是陪客聊天。將來服務業肯定會推出專用機器人。顧客人數有限,任務範圍狹窄,或許能從大量信息中提取出用戶有意義的反饋,獲得改錯能力吧。
(五)想象力
ChatGPT毫無想象力。無論是形象思維還是抽象思維的想象力都欠奉。論文學想象力,它無法虛構小說的情節與角色。論造型藝術想象力,它甚至無法想象出一尊具有鮮明特色的天使塑像。儘管我的文字描述非常具體,任何一個真人都能根據我的描述想象出那個雕像的大致樣子來,但它卻不行。
(六)創造力
因為沒有想象力,ChatGPT毫無創造力。它唯一貌似創作的活動是寫命題詩。但那不過是將它存儲的成句調出來組合一番而已。因為它沒有鑑賞力,所以格調因題目而異,更會受其他作品影響。有人編了一本題為《圖書館》的微詩集,請它點評並自作一首。它便寫出了一首貌似清新雋永的微詩,其實那不過是“雜取眾長”的仿製而已。如果不給它那些真人寫的詩,突兀地讓它寫首《圖書館》,很可能它只能寫出陳詞濫調。雖然不會有它奉和的“屎尿體”詩那麼噁心,但也不會是佳什。
(七)鑑賞力
按我前頭的定義,文藝鑑賞力是理解力、想象力以及非智力的感覺與感情的綜合運用。據此,ChatGPT只有語義理解力,沒有想象力更沒有感覺與感情,應該沒有想象力。但它依然具有相當出色的對英語詩歌的鑑賞力。我曾用自己寫的英文爛詩冒充拜倫的作品,請它潤色。它毫不客氣加以斧正(真是用斧頭砍),並指出改動理由。我再用拜倫的詩冒充自己的作品,請它潤色。它答道,這詩寫得已經非常優美了,如果要改,只能作微調。它同樣對雪萊的三首詩歌作了改動,我覺得修改稿更具有現代英語的韻味,而又不失原詩的優美。這些試驗證明,它確有英語詩歌的鑑賞力。這想來也不足奇,應該是預先訓練的模型和數據集中的知識和語言模式教會了它如何判斷句子的美醜。
但它對中國文學作品沒有獨立的文藝鑑賞力,只能人云亦云。如果是經典作家倒沒問題。但遇到它不是很熟悉的當代“作家”如賈淺淺,它就完全取決於用戶的吆喝,一點主見都沒有。
那天我請它點評賈淺淺的《雪天》。因為我同時問它是否知道賈淺淺,它記起了賈的身份,便胡說什麼“詩人通過這個場景,將現代社會的冷漠、無聊、虛偽等問題暗喻其中。尤其是‘你,尿了一條線,我,尿了一個坑’,形象地描繪了人們自私、不尊重他人的行為,讓人感受到一種深深的諷刺和無奈。”完全無視那是以兒童的口吻寫的。它甚至還說什麼:“這首詩在形式上也非常獨特,通過極簡主義的表達方式,將一個看似不起眼的場景轉化為一個充滿哲思的主題,展現了詩人的獨到的藝術思維和審美眼光。”
好笑的是,次日我再次請它點評賈淺淺的那首詩,它卻翻臉教育我:“這首詩歌可能違反了一些文化和社會標準,我不建議你以此作為參考或模仿。”經我一再提醒那是賈淺淺的詩,它才改了口,稱讚了一番,但再不提什麼“深深的諷刺和無奈”與“充滿哲思的主題”了,完全是順風倒,牆頭草。
我接着貼出臨時打撈來的“秋月白”對賈那首“詩”的評論,畢恭畢敬地稱那無名網人為“著名文學評論家秋月白先生”。它不敢怠慢,趕緊吹噓了一番。同樣地,它對兩位網人挖苦賈淺淺的打油詩也讚不絕口。好歹它認出了雪萊的詩,沒有同意我那“賈淺淺比雪萊厲害”的評語,否則真是丟人丟到姥姥家了。
所以,竊以為,起碼是對中國文學而言,ChatGPT毫無獨立鑑賞力,絕對取代不了編輯。誰若不信,請去網上找來賈淺淺的“鼻屎詩”《真香啊》,冒充是自己的作品,請它點評,看看它會怎麼說。這首詩我也請它評過,但我犯了個錯誤,說明那是賈的詩,引來了它的一派諛詞。
三、ChatGPT的社會功能
ChatGPT已有的社會功能,首先是娛樂大眾。它真是個難得的聊天對象,博學多知,哪個話題都能侃上一氣,還不時能給人啟發。會讓你情不自禁地喜歡上它,以致我幾次想起好萊塢喜劇片中Steve Martin愛上泡在藥水裡的大腦的故事。
而且,它還是任人捉弄的惡作劇對象。因為它不是人,再怎麼捉弄也沒有心理負擔。因為它毫無記性,也不會因為被捉弄而學壞,實在是千金難買。聊到後來,我竟然開始喜歡起這傢伙來,覺得比養寵物有趣多了。
ChatGPT的第二個功能是學術工具。我的一位科學家朋友說,它對他的領域中的前沿進展相當了解,甚至比他的資深同行講得更清楚。當然,他遇到的可能是個加強版的模型。但日後Open AI若推出專業化的模型,消除了文獻搜索的隱患,則用它來幫助科學家查閱資料、寫文獻綜述應無問題。
它的第三個功能是文字翻譯,可以輕鬆淘汰翻譯家們。起碼可以取代將蔣介石(Chiang Kai-shek)翻譯為“常凱申”,將孟子(Mencius)翻譯為“門修斯”,將孫子(Sun Tzu)翻譯為“桑卒”的985大學教授們。
第四個功能是教育功能。它可以作為學生的課外讀物,相當於我兒時看過的《十萬個為什麼》,也可以幫助教師備課,規劃教案,編寫教材,等等。
第五個功能可能是編程,但我不懂這行,沒有做過測試,不敢妄言。
但是,它將無法取代編輯以及網管,理由已如前述。
以上都是它已經具有的功能。在我看來,未來服務業將會推出各種專業化語言模型。它們的服務領域狹窄,任務單一,顧客有限,智能需求與知識儲備都可以極大簡化。第一批首當其衝失業的就是各行業的客服。
此外是各種諮詢機構,諸如法律諮詢,金融諮詢,房地產諮詢,健康諮詢,心理諮詢,旅行社,等等。總之,凡是從事不需要創造性的重複性腦力勞動或“嘴力勞動”的人都在劫難逃。
總之,ChatGPT的橫空出世,標誌着一個新時代的到來。它與必將緊隨其後出現的各種語言模型,將如同第一次工業革命一樣,給現有的社會結構與秩序帶來難以想象的衝擊。
2023年3月14日
|
|
|
![]() |
![]() |
| 實用資訊 | |
|
|
| 一周點擊熱帖 | 更多>> |
| 一周回復熱帖 |
| 歷史上的今天:回復熱帖 |
| 2022: | 俄羅斯文明是侵烏戰爭的土壤 | |
| 2022: | “陰謀論者的陰謀”論 | |
| 2021: | 撥雲| 美國三次誤判中共的歷史教訓(6) | |
| 2021: | 回應《我們都是魔鬼人》的批判 | |
| 2020: | 美國製造新冠病毒鐵證如山 | |
| 2020: | 撒謊不會讓美國再次偉大 | |
| 2019: | 論白眼狼的三大屬性——縱評李一平其人 | |
| 2019: | 我也想承包中小學食堂 豬狗不如的價值 | |
| 2018: | 郭文貴的政治謀略存在致命缺陷 | |
| 2018: | 川普說開誰就開誰, | |




