人工智能發展中重要模型之一:鬼域模型 |
送交者: 天蓉 2024年03月28日11:55:10 於 [教育學術] 發送悄悄話 |
1909年,老塞弗里奇在倫敦開了第一家百貨商店(Selfridges),以其家族的名字命名。塞弗里奇善於經營有所創新,改變了人們的購物方式,開啟了一種新型的商業模式。之後,Selfridges成功地發展成為英國第二大的高檔百貨連鎖店。不過,老塞弗里奇怎麼也想不到,50年之後,他的孫子奧利弗·塞弗里奇,用一篇論文,區區十幾頁紙,就在科學上開闢了一片新天地,成為人工智能中模式識別的奠基人。這篇文章中,我們講述奧利弗·塞弗里奇的故事。AI先驅塞弗里奇 奧利弗·塞弗里奇( Oliver Selfridge,1926-2008)出生於倫敦,但他那位創建百貨商店的祖父卻是出生在美國的威斯康星州。 祖父異常聰明,開始時在芝加哥一家商店工作,很快就成為執行副總裁,然後擁有了一家商店,並將其搬到倫敦,在牛津街開設了塞弗里奇百貨公司。 因此,奧利弗的父親一直擁有美國國籍。在奧利弗十幾歲的時候,他隨着父母和4個兄弟姐妹,全家搬回到了美國。奧利弗的父親在美國的Sears Roebuck 公司工作,他對數學一竅不通,但卻注意到兒子對數學的興趣和能力,對奧利弗朝這個方向的發展十分支持,傾注了極大的熱情。 像所有聰明好動的男孩子一樣,奧利弗小時候不喜歡去學校,但數學成績表現不凡,他在十三歲時就學習了微積分,達到了大學頭兩年要求達到的標準。 於是,奧利弗於16 歲順利地進入麻省理工學院,19 歲本科畢業,主修數學。其間,奧利弗在 17 歲的時候作為一名大三學生加入了海軍,因而海軍便支付了奧利弗麻省理工學院之後所有的賬單。 後來,海軍退役後,塞弗里奇留在MIT讀研究生,師從諾伯特·維納(Norbert Wiener)學習數學。他後來參與了達特茅斯會議[圖1],是人工智能研究的重要發起人之一。之後繼續撰寫有關模式識別和機器學習的重要早期論文。 他 1958 年發表的論文“鬼域( Pandemonium )模型:一種學習的範式” [1]被認為是機器智能的經典著作之一。 圖1:塞弗里奇,右邊照片是在達特茅斯研討會上,圖像來自維基百科 塞弗里奇幽默地給他的圖像識別模型起了一個新穎的名字:鬼域。Pandemonium一詞,取自17世紀英國詩人約翰·彌爾頓1667 年的史詩《失樂園》,意為“所有的惡魔”,或者是地獄之都,簡譯為“鬼域”,一個喧鬧騷動、群魔亂舞的幽靈世界,圖1的背景是畫家約翰·馬丁1841年以鬼域為主題的著名畫作之一。 在塞弗里奇的鬼域模型中,將人體大腦及感官中不同的部分,比喻為不同的“鬼怪”,可將它們想象成現代人工神經網絡中不同層次的不同神經元組合。這許多鬼怪幽靈在模式識別中扮演着不同的角色,各司其職。後面我們將簡單介紹,小鬼們是如何分工合作完成圖像識別任務的。 科學江湖高手雲集 首先需要回顧一下人類企圖模擬自身神經系統的歷史,這是塞弗里奇建立鬼域模型的背景。一般認為,這方面最早的工作起始於美國神經生理學教授沃倫·麥卡洛克(Warren McCulloch,1898-1968),[圖2c]。1941年,當時已功成名就的沃倫·麥卡洛克,從東部搬到美國芝加哥大學醫學院,擔任神經生理學教授。到芝加哥後不久,一位朋友介紹他認識了沃爾特·皮茨(Walter Pitts,1923-1969),[圖2a]。 皮茨出生於密歇根州底特律一個教育程度不高的家庭,是一個善於自學的神童。他從小就自學邏輯和數學,並精通多種語言,包括希臘語和拉丁語。皮茨 12 歲時,在圖書館呆了三天,閱讀英國著名數學家羅素的大作《數學原理》,讀後他寫信給羅素,指出了他認為第一卷前半部分存在的嚴重問題。 羅素很感激他,並邀請他在12歲時到劍橋大學學習。但皮茨沒有接受這個邀請; 然而,皮茨決定成為一名邏輯學家。 15歲時,他離家求學。 圖2:當年MIT的相關人物 1938 年秋天,羅素是芝加哥大學的客座教授,15歲的皮茨去參加了羅素的講座。儘管皮茨沒有註冊為學生,但他留在那裡繼續聽課,包括羅素的課。在羅素的指導和幫助下,皮茨與多位數學家、邏輯學家、神經解剖科學家等合作工作過,並成為芝加哥大學的博士生。即便如此,皮茨當時卻仍然是一個沒有收入、無家可歸的,芝加哥大學校園中的流浪漢。 1938 年,皮茨遇到了醫學預科生傑羅姆·萊特文 (Jerome Lettvin),[圖2b]。萊特文1920年出生於芝加哥的一個烏克蘭新移民家庭,父親是律師,母親是鋼琴教師。起初,母親希望萊特文成為鋼琴家,但兒子不感興趣,因此,父母送學琴不利的傑羅姆去學醫。萊特文遇見了皮茨後,年齡相仿的兩個年輕人,從此成為親密的朋友。 皮茨在大學校園裡,白天選擇喜歡的課程旁聽,晚上就隨便找個教室睡覺,沒有固定的住處。因此,麥卡洛克到芝加哥認識了皮茨和萊特文之後,便邀請皮茨與他的家人住在一起。兩人雖然年齡相差懸殊,資歷迥異,但卻有許多共同的東西將他們連接在一起,而在對神經元模型的思考方面,兩人的知識面又能互相彌補。兩位科學家都欣賞數學家萊布尼茨, 皮茨熟悉萊布尼茨在計算方面的工作,麥卡洛克考慮,神經系統是否可以被視為萊布尼茨所描述的一種通用計算設備? 那時候的麥卡洛克已經發表了多篇關於神經系統的論文,是該領域有名的專家。而皮茨,雖然才18、9歲,但他已經在數理邏輯領域有所建樹,並獲得羅素及馮諾依曼等人的賞識。二人都堅信數學模型可以描述、模擬大腦的功能。在這個共同的信念的驅使下,二人於1943年,發表了一篇開創性的神經網絡論文“神經活動中內在思想的邏輯演算”[2]。提出了最早的人工神經網絡模型:麥卡洛克-皮特斯神經元(McCulloch-Pitts Neuron)模型。該模型旨在用二進制開關的“開”與“關”的機制來模擬神經元的工作原理。在論文中,麥卡洛克與皮特斯證明了該簡化模型可以用於實現基礎邏輯(如“與”、“或”、“非”)運算。 那麼,這幾位當年在芝加哥思考和研究“人工神經元”的科學家,又是如何與我們本文介紹的主角:奧利弗·塞弗里奇,關聯起來的呢? 那是後來在麻省理工學院的事情。塞弗里奇在二戰結束,從海軍退役後,便回到了MIT讀研究生,師從大名鼎鼎的諾伯特·維納(Wiener,1894-1964)[圖2d]學習數學[3]。 維納出生於美國,父母都是猶太移民,維納從小被父母用一種特殊的方式培養成神童,而他也的確是個神童,他18歲就獲得了數理邏輯的博士學位。戰後,他在麻省理工學院教授數學,以講課的技巧惡劣而聞名,在課堂上經常心不在焉,鬧出不少笑話。二戰時,他在槍炮控制方面工作,引發了他對通訊和反饋的興趣,之後著有《控制論》一書,促成了控制論的誕生。 儘管現在大多數學者並不將控制論歸類於人工智能的範疇,但當年維納心中雄心勃勃的研究計劃里,的確是包括了“人類神經系統研究”這種類似的課題的。 因此,麥卡洛克和皮茨發表了第一個神經元模型後,萊特文將好友皮茨介紹給了維納,維納也感興趣。這樣,神童順利地搬到了波士頓,與昔日神童維納一起工作,成為他的非官方學生。 當年的維納正在寫他的《控制論》,便安排他的學生:皮茨和塞弗里奇,幫助他處理書稿中各個方面的問題。當時的兩位年輕人,加上萊特文等,既是同學又兼室友。他們在一起工作、生活、玩耍,都十分開心。特別是對當年還不到20歲,原本學習邏輯的奧利弗·塞弗里奇而言,通過這幾位好友,接觸了神經網絡,了解了理論神經生理學的主題。開始對神經網絡可進行的特定處理,以及對“學習”的一般屬性都頗感興趣。計算領域的其他大神,例如馮諾依曼等,也不時拜訪MIT,這種環境啟發了塞弗里奇跨界思維的科學方法,因而做出了不凡的成績。 1951年,維納說服MIT的領導聘請了這幾位神經系統生理學家。 麥卡洛克從芝加哥最後搬過來,大家一起成立了一個小組。然而好景不長,1952年,維納突然反對麥卡洛克,並宣布與這個小組的所有人,包括皮茨、塞弗里奇、萊特文等,斷絕一切關係,在他的餘生中不再與這些人說話或承認他們的存在。這次重大變故的原因可能來自兩方面:維納的妻子是主要原因,她討厭麥卡洛克,看不慣他與一夥年輕人的“自由主義”,還對他們編出了一個有關她女兒的莫須有的謊言故事作為罪名。第二個原因,則可能是與維納本人及其家族嚴重的精神分裂躁鬱症有關[4]。 總之,這次不歡而散,對皮茨這位脆弱的天才造成了致命的打擊,因為他當時的生活完全依賴於與維納的關係,實際上這次事件也不利於維納 “控制論” 的發展,但這些都是後話,暫且不表。 蛙眼蛙腦跨行思維 作為維納的博士生,兩邊“斷交”使得塞弗里奇最終沒有獲得博士學位,他後來加入了MIT的林肯實驗室,參與建造第一個擴頻系統。1953 年,塞弗里奇在那兒遇到了剛剛從普林斯頓大學畢業的馬文·明斯基 (Marvin Minsky,1927-2016),1954 年,又遇到了來自卡內基的心理學家:艾倫·紐厄爾 (Allen Newell,1927-1992),二人都對人工智能極感興趣。因此,後來便有了1955年在西方聯合計算機會議上召開的“真正”第一次人工智能會議,以及再後一年的達特茅斯會議。 1959 年,四位人工神經網絡科學家( Humberto Maturana、Lettvin、McCulloch 和 Pitts)發表了一篇著名的論文:“青蛙的眼睛告訴青蛙的大腦什麼?”,或簡稱為“蛙眼”。作者中除了本文上面介紹過的幾位之外,還加了馬圖拉納(Humberto Maturana,1928-2021),他是一位智利生物學家和哲學家。 圖3:“蛙眼”論文[5],1959 “蛙眼”這篇文章對塞弗里奇啟發很大。在此之前,人們只知道視網膜上的細胞可以感受簡單的、代表光線有無的信息,許多人認為視網膜只是檢測個別的像素並將其傳送到大腦。而這次的實驗數據,最終證明了:不僅僅是生物的大腦處理複雜信息,生物眼睛的圖像處理過程中,“眼睛中的模擬過程至少做了部分解釋工作”,並不僅僅是“數字的神經元通過其它神經元,完全由大腦使用數學邏輯的精確實現來計算信息”。“蛙眼”論文發表在《Proceedings of the IRE》(現在的《IEEE》)上,因為當時的《神經生理學雜誌》不接受它。 該論文對青蛙的部分大腦進行了詳細的功能描述,也描述了視覺系統並展示了各種“錯誤檢測器”的視覺特徵檢測器的存在。實驗表明,青蛙眼睛裡也有專門用來感受複雜運動的特徵感受器。眼睛也能識別特徵,不只是簡單地感受光線有無。例如,青蛙看見一隻蟲子嗖的飛過來,蛙眼立刻有反應,將蟲子這一特徵物體告訴大腦,而它一般對背景的慢變化卻無動於衷。據說,當萊特文第一次在會議上公布這個結論時,遭到了同行們無一例外的嘲笑,但是,在之後的10年間,這篇文章成為了引用率最高的科學論文之一。萊特文當年還製造了第一根微電極針,用於讀取青蛙視神經中的單個軸突。 因此,塞弗里奇認為,無論是在想法還是實驗操作方面,“蛙眼”都是一部絕對出色的作品。 這項工作的結論讓塞弗里奇認識到:特徵識別異常重要。因此他一直關注類似的課題,在 1955 年的西方聯合計算機會議上,他發表了關於模式識別系統的第一篇論文。論文中包括了如何識別正方形的問題,描述了正方形的特徵:包括了角和線,並探求如何在嘈雜的背景下檢測到“角和線”等等。 塞弗里奇是第一個用足夠具體的術語來表達模式識別可以被計算機化的人。 塞弗里奇也意識到以跨學科的方式進行工作的重要性,在那個年代,對這些東西感興趣的人還不是很多,人工智能才剛剛起步,約翰·麥卡錫等新人不斷加入,香農和馮·諾依曼等仍然對此很感興趣。這些不同行業的科學家們,傾向於互相了解、互相交談,有意無意地開創了十分有利於科學發展的,跨學科的思維方式。 塞弗里奇幾乎與此同步地開發了他的《Pandemonium》鬼域模型,其中融入了他的許多想法,比如並行分布式處理、自適應多層網絡、特徵檢測器等等。 鬼域模型與“蛙眼”兩篇論文之間有很多聯繫,因為塞弗里奇與“蛙眼”作者之間密切合作互相影響。 特徵識別鬼域模型 我們以英文字識別為例來解釋鬼域模型。當提到圖像識別,人們一開始可能自然會思考用比較像素(pixel)的方法,如圖4所示。 例如,為了識別圖4b接受到的圖像是哪一個字母?我們可以將它與計算機中儲存的26個英文字母的標準模板相比較。即將圖像b分解為若幹個像素,每個像素被賦予一個二進制數值(0或1),然後將這一串像素值與26個模板的像素值比較並計算其符合度,如果與某個模板(例如,圖4a的L模板)符合度大於某個規定的閾值(例如97%),那麼,就可以判定圖像是該模板對應的字母(L)。 圖4:比較像素的圖像識別法 稍微想一想就能看出上面方法沒有多大用處,它無法識別手寫的字母,比如圖4c那種。 從前面 “蛙眼”文章的介紹中便能體會到,青蛙識別圖像的方法,都比圖4所示的方法高明多了。也就是說,需要識別的,重點不是每個像素的信息,而是物體的結構特徵,這也就是塞弗里奇模型的關鍵所在。 在塞弗里奇的鬼域模型中有四種幽靈,它們分別是: 1.圖像幽靈:守在地獄門口,負責記錄和傳遞輸入數據或圖像;2.特徵幽靈:負責某個特徵,例如英語字母中的“橫、豎、斜、圈、弧”等等;3.認知幽靈:例如上例中有26個認知幽靈,各負責一個字母;4.決策幽靈:最後確認結果並輸出。 圖5:鬼域模型示意圖 圖5的左圖來自於一本心理學教科書[6],它很形象地描述了鬼域模型中四種幽靈的不同角色。我們用圖5右圖為例,來解釋鬼域模型是如何工作的。 1、首先,圖像幽靈接收外來的輸入,在我們的例子中,一次接受一個字母,所以,一個圖像幽靈守門就可以了。比如圖中的輸入是字母“R”,圖像幽靈將“R”傳遞到下一階段的特徵幽靈。 2、特徵幽靈描述構成英文字母的各種模式特徵,因此數目眾多,不過圖5中只顯示了其中的6種,分別用不同顏色的圓形表示。因為輸入的是“R”,可以分解為“右半圓、豎、右斜線”3個結構特徵。所以,最上面的表示“右半圓” 的藍色幽靈,檢測到了輸入包含了它所具有的特徵,於是,藍幽靈大叫一聲。同樣的,第3個特徵“豎”的紅幽靈,和第4個特徵“右斜線”的黃幽靈,也都分別探測到了輸入中有它們,也大叫起來。這3個特徵幽靈的叫聲,傳遞給下一階段的認知幽靈。 3、在我們的例子中,每個認知幽靈代表一個字母,所以應該至少有26個,不過圖5中只畫出了“R、Q、P、O“4個。認知幽靈探測從特徵幽靈那兒傳過來的叫聲,辨別是由哪些特徵幽靈發出來的,與自己代表的字母的特徵相比較,計算符合度,並根據符合度大小發出一定音量的聲音,符合度越大,音量就越大。在所給的例子中,認知幽靈”R“,發現傳來的3個叫聲正好完全符合R的3個結構,也就是符合度等於100%,所以,它就發出最大的叫聲,而代表其它字母的認知幽靈,例如幽靈”P“,檢測到3個叫聲中有2個符合,所以符合度等於2/3。然後,它也就只能用2/3的音量來發聲了。 4、最後那個決策幽靈的工作比較簡單,它只需要根據認知幽靈的聲音大小來作決策,選取叫得最響的那個認知幽靈所代表的字母作為輸出,任務就完成了。 在這個模型中,各種幽靈都在不停地大叫大嚷,一片喧囂,鬼哭狼嚎,要不怎麼會叫它“鬼域模型”呢。不過,儘管這個名字聽起來可怕,但工作原理卻不難理解。並且,這個六十多年前就有了的模型,提出了現代機器學習中的許多重要概念,對AI的發展,起到了重要的啟發作用。因此,奧利弗·塞弗里奇功不可沒。 參考文獻: [1]Selfridge, O. (1959) Pandemonium: A Paradigm for Learning, Proceedings of Symposium on the Mechanization of Thought Processes. National Physics Laboratory, Teddington.[2]Warren S. McCulloch and Walter Pitts. A logical calculus of the ideas immanent in nervous activity. Bulletin of mathematical biophysics, vol. 5 (1943), pp. 115–133.[3]An Interview with Oliver Selfridge,January 2008,In book: The Mechanical Mind in History (pp.397-408)Publisher: MIT Press[4] Jim Siegelman 和 Flo Conway (2004),《信息時代的黑暗英雄:尋找諾伯特·維納—控制論之父》。[5]Lettvin, J.Y; Maturana, H.R.; McCulloch, W.S.; Pitts, W.H., What the Frog's Eye Tells the Frog's Brain Archived 2011-09-28 at the Wayback Machine, Proceedings of the IRE, Vol. 47, No. 11, November 1959[6]Lindsay, P. H., & Norman, D. A. (1972). Human information processing: An introduction to psychology. (本文於3/20/2024首次發布於微信公眾號“知識分子”) |
|
|
|
實用資訊 | |
|
一周點擊熱帖 | 更多>> |
|
|
一周回復熱帖 |
|
|
歷史上的今天:回復熱帖 |
2023: | 末法時代如何修行--發起菩薩殊勝志樂經 | |
2023: | 素質教育工作的心腦全面向區塊整合性處 | |
2022: | 人類情愛史---原始的激情(業ӥ | |
2022: | 中國新聞事業編年紀事【7】 | |
2021: | 中國超導物理學泰斗痛斥”妄議中央”謬 | |
2020: | 對冠狀病毒的戰略和策略 | |
2020: | 太陽系量子力學結構周期表(之十一) 2 | |
2019: | 為何美國教育稱霸全球 | |
2019: | 唐詩天天讀(61) | |