20世紀中期,隨着蛋白質空間結構的解析和DNA雙螺旋的發現,形成了
以遺傳信息載體核酸和生命功能執行者蛋白質為主要研究對象的分子
生物學時代。分子生物學的誕生使傳統的生物學研究轉變為現代實驗
科學。但是,在生命科學領域的實驗科學與其它實驗科學如實驗物理
學相比,更多地是注重經驗,而非抽象的理論或概念。此外,這些生
物學家們大多關註定性的研究,以發現新基因或新蛋白質為主要目標,
對於定量的研究,如分子動力學過程等沒有給予足夠的重視。儘管如
此,現代生命科學在20世紀的下半葉還是取得了豐盛的成果。正如美
國科學院院長分子生物學家阿爾伯特(B. Albert)所說,“在一個基因
克隆占主要地位的時代,當今許多優秀的科學家在不具備任何定量研
究的能力下仍然取得了巨大的成績”。但是,隨着後基因組時代的到
來,生物學研究者的定量研究能力和知識已不再是可有可無的了。
大勢所趨
英國生物學家保羅?納斯(Paul Nurse) 因細胞周期方面的卓越研究成
為了2001年度諾貝爾生理學或醫學獎的得主。他曾在一篇回顧20世紀
細胞周期研究的綜述文章中以這樣的文字結束:“我們需要進入一個
更為抽象的陌生世界,一個不同於我們日常所想象的細胞活動的、能
根據數學有效地進行分析的世界。”
也許基於同樣的考慮,2000年10月美國國家科學基金會(NSF)的主任
科勒威爾(R. Colwell)在向國會提交的報告中,稱數學是當前所有新
興學科和研究領域的基礎,要求下一年度對數學的資助要增加3倍以上,
達到1.21億元美金。在這些增加的預算中,有很大的一部分被用來支
持數學與其它學科的交叉研究,尤其是數學與生物學的交叉研究項目。
儘管數學一直在現代生命科學中扮演着一定的角色,如數量遺傳學、
生物數學等。但真正體會到數學重要性的還是20世紀90年代生物學家。
基因組學是這種趨勢的主要催化劑。隨着DNA序列測定技術的快速發展,
20世紀90年代後期每年測定的DNA鹼基序列以驚人的速度迅速增長。以
美國的基因數據庫(GenBank)為例,1997年擁有的鹼基序列為1x109,
次年就翻了一番,為2x109;到2000年GenBank已擁有近8x109個鹼基序
列。同樣,在蛋白質組研究和轉錄組研究等快速推進的過程中,各種
數據也在迅猛的增加。據估計,現在生物數據量可以達到每年1015字
節。如何管理這些“海量”數據,以及如何從它們中提取有用的知識
成為了對當前生物學家、數學家、計算機專家等的巨大挑戰。由此引
出了一門新興學科:生物信息學(Bioinxxxxatics)。此外,對細胞和
神經等複雜系統和網絡的研究導致了數學生物學
(Mathematical Biology)的誕生。美國國家科學基金委員會為此專門
啟動了一項“定量的環境與整合生物學”的項目,以鼓勵生物學家把
數學應用到生物學研究中去。幾乎在同一個時間,美國國立衛生研究
院也設立了一項“計算生物學”的重大項目。
理解生命的新工具:模型
上面的論述也許會造成這樣一種印象,數學在現代生命科學中的應用
主要是在“海量”數據的處理方面。可以這樣說,今天的確是有許多
生物學家是從“計算”的角度來看待數學對生命科學的作用。然而,
對於理解生命現象來說,計算是遠遠不夠的。當我們把通過基因芯片
獲得的成千上萬的實驗數據餵進一台計算機,讓計算機根據一定的運
行程序吐出一堆堆的結論時,我們是否可以認為,我們已經理解了所
要研究的生物學問題?不僅如此,我們也許還需要警惕,不要讓計算
機代替我們的思考。
對於今天的生命科學工作者,數學的價值應該體現在“模型化”
(Modelling)方面。通過模型的構建,那些看上去雜亂無章的實驗數據
將被整理成有序可循的數學問題;通過模型的構建,所要研究的問題
的本質將被清晰地抽象出來;通過模型的構建,研究者們的實驗不再
是一種隨意的探索,而是通過“假設驅動”
(Hypothesis-driven approach)的理性實驗,就如同物理學家們的
工作一樣。
上個世紀的實驗生物學家把生命視為一個線性的系統,力圖以一種簡
單的因果關係來解釋生命活動。通常在那些尋找新基因的研究者的內
心深處,大多擁有一個“基因決定論”的願望:一旦找到了某一種基
因,就能解答一個生物學問題。癌症有“癌基因”,長壽有“長壽基
因”,聰明有“聰明基因”,甚至犯罪都是由一種“犯罪基因”所造
成。但是,幾十年的研究軌跡,劃出的卻是一幅幅越來越複雜的圖案。
以人類發現的第一個腫瘤抑制基因p53來說,自1979年發現至今,已有
近2萬5千篇文章涉及到它;直接與p53相互作用的蛋白質多達數十種,
新的還在發現之中。現在人們看到的p53已經是一個相當複雜的調控網
絡。顯然,沒有數學模型的幫助,要理解和分析p53的功能將不是一
件容易的事。不久前,發現p53的生物學家之一萊文爾(A. J. Levine)
和數學家一起,建立了一個解釋p53調控線路的數學模型[1]。
數學不僅能幫助我們從已有的生物學實驗和數據中抽象出模型和進行
解釋,它還可以用於設計和建造生物學模型,也許這些生物學模型在
自然的狀態下是不存在的。在這種意義上說,基於數學模型和假設進
行的生物學實驗將更接近我們所熟知的物理學和化學實驗,更多的依
賴於抽象和理性,不再是一門經驗科學。
新世紀伊始,數學指導實驗已成為了現實。不久前,美國的科學家在
《自然》(Nature)雜誌上報道了他們人工設計的生物模型。普林斯
頓大學科學家設計了一個自然界不存在的控制基因表達的網絡。這個
網絡可以周期性的調控大腸桿菌內一個外源基因的表達[2]。在同一期
雜誌上,波士頓大學的生物學家也報告了他們相類似的工作[3]。這
兩個工作的共同特點是,首先應用某種微分方程(兩個實驗室採用了
不同的微分方程)進行推導和設計,然後再根據其設計去進行生物科
學實驗,如構造基因表達質粒,進行檢測基因表達情況等。這些科學
家認為:“這種‘網絡的理性設計’可以導致新型的細胞工程和促進
人們對自然界存在的調控網絡的理解。”[2]
“萬物皆數也”
數學常常被人視為工具。它的確也是非常有用的工具。但是,只要是
作為工具,就具有可替換性。“條條道路通羅馬”。工具就是道路,
可以選擇途徑A,也可以選擇途徑B,只要能達到目的地就行。當然,
有的可能是捷徑,有的可能是彎路。但它們畢竟都不是唯一的。就如
同過去的生命科學研究,沒有數學也取得了不錯的成績。數學的應用
顯然會對現在和今後的生物學研究有幫助,但生物學家不用數學行不
行呢?
人類對自然和生命的關注,通常體現在兩個方面的問題:構成世間萬
物的本質是什麼以及如何去認識和探尋這種本質。前一類問題是屬於
本體論,後一類問題則屬於認識論。如果採用這樣假設:生命的本質
最終是體現在數學規律的構成上。那麼,沒有數學顯然我們就不能真
正和徹底地揭示出生命的本質。
DNA和蛋白質是兩類最重要的生物大分子。它們通常都是由眾多的基本
元件(鹼基、氨基酸)相互聯結而成的長鏈分子。但是,它們的空間
形狀並非是一條平直的線條,而是一個規則的“螺旋管”。儘管在20
世紀中葉人們就發現了DNA雙螺旋和蛋白質α螺旋結構,但至今為止,
人們還是難以解釋,為什麼大自然要選擇“螺旋形”作為這些生物大
分子的結構基礎。
不久前,美國和意大利的一組科學家,利用離散幾何的方法研究了致
密線條的“最大包裝”(Optimal Packing)問題,得到的答案是,在一
個體積一定的容器里,能夠容納的最長的線條的形狀是螺旋形 [4]。
研究者們意識到,“天然形成的蛋白質正是這樣的幾何形狀”[4]。
顯然由此我們能夠窺見生命選擇了螺旋作為其空間結構基礎的數學原
因:在最小空間內容納最長的分子。凡是熟悉分子生物學和細胞生物
學的人都知道,生物大分子的包裝是生命的一個必要過程。作為遺傳
物質載體的DNA,其線性長度遠遠大於容納它的細胞核的直徑。例如構
成一條人染色體的DNA的長度是其細胞核的數千倍。因此通常都要對
DNA鏈進行多次的摺疊和包紮,使長約5厘米的DNA雙螺旋鏈變成大約
5微米的緻密的染色體。由此我們可以認為,生命遵循“最大包裝”
的數學原理來構造自己的生物大分子。
細胞是生命的基本組成單元和功能單元。而細胞分裂(又稱為細胞增
殖)是細胞最基本和最重要的活動。完成一次細胞分裂的活動稱為細
胞周期。不同物種的細胞周期的時間長短是不一樣的,有着嚴格的調
控。那麼,是什麼構成了細胞周期的“時鐘”?最近的研究表明,對
於酵母細胞而言,一種細胞周期調控蛋白的磷酸化程度有可能被用作
細胞周期運行的“時鐘”。這種被稱為Sicl的蛋白質上有9個位置可
以被蛋白激酶CDK進行磷酸化。當它被加上第1個磷酸基因至第5個磷
酸基團的時候,其分子的行為沒有出現變化。但是,一旦被加上第6
個磷酸基團時,它就可以和一種稱為Cdc4的蛋白發生相互作用,然後
被蛋白酶降解,從而導致細胞進入DNA合成期(S期),最後完成細胞
分裂。研究者詳盡而深入的工作揭示出,Sicl蛋白的每一次磷酸化都
有助於與Cdc4的相互作用,但只有到第6次或6次以上,其結合力才達
到與Cdc4穩固的結合。此外,如果給Sicl蛋白人為裝上一段外源氨基
酸肽段,一次磷酸化就能使Sicl與Cdc4結合併導致其降解,這時Sicl
控制細胞周期時間的功能就會喪失[5]。這個研究成果很典型地揭示
了細胞是如何通過數量的控制來實現其生命活動。
古希臘著名的數學家畢達哥拉斯(Pythagoras)曾給後人留下過這樣一
個觀點:“萬物皆數也”。如果他的觀點是正確的,作為大自然的傑
作——生命,一定也是按照數學方式設計而成的。因此,數學不僅僅
能夠提升生命科學研究,使生命科學成為抽象的和定量的科學,而且
是揭示生命奧秘的必由之路。
[1] Bar-Or R L, et al. Proc. Natl. Acad. Sci. USA, 2000, 97:11250
[2] Elowitz M B & Leibler S Nature, 2000, 403:335
[3] Gardner T S, et al. Nature, 2000,403:339
[4] Maritan A, et al Nature, 2000,406:287
[5] Nash P, et al. Nature, 2001, 414: 514