精卫的诞生与基因起源之迷 ------- 我在芝加哥大学的生物学实验室
龙漫远 (美国芝加哥大学生物科学院助理教授(Assistant Professor),博士。)
又北二百里,曰发鸠之山,莫上多柘木。有鸟焉,其状如乌;文首、白、赤足,名曰"卫"曰女娃。女于东海,溺而不返,故为精卫。常衔西山之木石,以堙于东海。
--《山海经·北山经》
(一)
许多年前,我在云贵高原一个绿民。山民管我们这些下乡插队的知识人,曾在私塾读里来的或回乡的中学生娃娃,因为我们一本线装书也没读过。在一个深冬无聊的晚上,老文书摇头晃脑地为我背诵了精卫填海的神话,真没想到,在我日后负羞美国,从加州大学到哈佛大学,再到芝加哥大学的十年旅途中,竟与这个神话结下了不解之缘。
(二)
在芝加哥大学我的实验室里,聚集着一批来自美国和其它几个国家的优秀的博士后研究员、博士研究生和本科生,在共同研究一个叫做"精卫"或类似的基因。这个基因与我们所知的四百多万个分子序列已知的基因不同之处,是它极其年轻的生命和奇异的结构。生命的进化,常以百万年为基本的年龄单位(一岁)。此前发现的基因,年龄都在一千岁到三千岁之间,而"精卫"'的年龄大约只有两岁。因此,我们第一次有机会考察一个基因的起源状况。这就像研究人的早期胚胎以推断个体发育产生过程一样。一位美国同事打了个比方,说"精卫 " 基因是宇宙之超新星爆炸的产物。
今天,人类已经知道许多有关自身存在的环境各个层次单位的起源过程。在宇宙水平上,英国剑桥大学的斯蒂芬。哈肯(stephen Hawking)所著的《时间简史》,描述了扣人心弦的宇宙起源图景。对地球的起源及演化,从19世纪英国地质学家查尔斯·耐依尔(char1es Lyell)到今天的地球物理学家已对其40亿年的演变过程进行了详细的描述。在生命的层次上,自19世纪中时查尔斯·达尔文(Char1es Darwin)到现在,人类已经知道物种起源的许许多多奥秘。在特殊情况下,已能在实验室重现一个自然界已存在的物种起源的遗传演变的全过程。
然而,直到1990年,人类却一直没有机会探究基因这一生命的最基本单位的起源之谜。在此之前,有几位学者曾作过思辨式的探索,如30年代芝加哥大学的舍沃·怀特(Sewal1wrisht ), 70年代加州理工学院的大野,乾(susumu 0hno)以及我以前的老师、哈佛大学的沃尔特·吉尔伯特( wa1ter Gilbert)。但是他们都没有机会目睹一个新基因的起源。因为20世纪的生命科学还处在发现和调查基因的性质、回答"基因是什么"的阶段,对" 基因从何而来"'这样的问题,还无暇顾及。
随着分子生物学技术的进步,以分子生物手段研究进化问题在80年代成为可能。然而,我有机会研究基因的起源,则完全出于偶然。
(三)
研究一个新基因的起源过程,应该包括两个相互衔接的步骤。首先,我们要知道一个新的基因结构在自然界的某一生物个体产生的突变步骤。其次,我们需要知道这一单一个体的新基因扩散到一个物种所有个体的固定过程。观察新基因起源的两个步骤是一项极富挑战性的工作。因为,前者需要阐明分子突变的分子生物学机制,后者需要涉及复杂抽象的数学过程。而在过去的研究中,这是生物学中两个互不交叉的领域。
更困难的是作为研究对象的新基因必须很年轻。因为我们发现,基因的起源过程与人的个体发育过程有着相似之处。一个人在幼时相貌变化特别快,而到成人时期相貌变化则趋向缓慢。因而,用成年时的相貌判别推测幼时的相貌,可靠程度就不会高。同样,基因在产生之初,结构变化既大且快。所以用老的基因如动植物共有的某些基因,去研究基因起源的旱期特征是很难有准确结果的,因此,研究新基因起源的第一步,是找到自然界的物种中刚刚产生的年幼的基因,而且这样的基因还必须在基因起源的两个步骤中都保有鲜明的特征。
我的第一个新基因研究系统的建立是一个"无心插柳柳成荫"的过程。但这一过程的结果不仅阐明了前面所提出的两个重要问题,而且导致了对其他基因有意识的探索。这些新基因独有的特征以及在进化上的意义,吸引了许多基础科学工作者。为了让其他领域(如数学、物理、化学)的学者和一般读者能分享基因起源的知识,我将用尽量通俗的语言来介绍我们目前获得的研究成果。
(四)
1990年夏,我幸运地进入了加州大学(戴维斯)美国分子群体遗传学最优秀的学者之一查尔斯·兰格利(Charles Langley)的实验室,开始了我的博士研究课题。
20世纪下半叶,生物学发生了两场改变基本观念的科学革命。一是由沃森和吉尔伯特等人领导的分子生物学的兴起,回答"基因是什么" 的问题。二是在分子进化领域里对西方思想界和生物学界信奉达一百多年的达尔文主义的挑战,即认为达尔文理论内核心部分适应性自然选择不是分子水平进化的主要动力,是中性突变基因的随机固定造成了分子水平上物种间和物种内的变异。这场进化理论的变革,始于哈佛大学理查德。莱旺顿Richard Lewontin)和他的同事杰克·胡毕(Jack Huby)干1966年在芝加 大学开创的分子进化的电泳研究。他们运用自己创造的分子技术,观察到以前的进化科学家从来没有想象过的现象:果蝇的任一个体的多于M%的其因编码的蛋白质分子是不一样的。运用遗传载荷理论计算由于对差异的选择,每一雌果蝇为保持物种的不至灭绝必须产生十亿个以上的后代,而这在现实中是绝对不可能的。因此,莱旺顿和胡毕指出自然选择理论不能解释产生分子差异的原因。此后短短十年,世界上许多实验室运用电泳技术调查了一千多个生物物种,证明莱旺顿--胡毕的实验结果是普遍成立的。
面对莱旺顿--胡毕实验揭示的与原有正统理论不相容的自然现象。日本遗传学家木材资生(Motoo Kimura)提出了一套革命性的理论。这一理论的基本观点认为,物种间和同一物种内个体间在分子水平上的遗传差异是遗传漂移所引进的突变的随机固定的结果。通俗他说是每个生物个体生存的"运气" 不同的结果,而不是达尔文理论主张的"弱肉强食"的选择所致。同生物学的其他理论相比,木村的中性进化理论的重要,不仅在于其基本观念的变革,而且在于这一理论的独有特征:高度的数量化。尽管中性进化论赖以建立的遗传载荷计算只适用于非常特殊的适合度模型,但这一理论所得出的一系列精确的数学预期,可以由观察实验印证,从而对理论本身进行精确的检验。
我在兰格利实验室的博士论文研究的最初计划,是发展一个适合的分子实验模型,调查中性进化论的理论预期在DNA 序列水平的符合程度。1990年夏天,英国剑桥大学的遗传学家迈克·阿系伯纳(Michael Ashburner)告诉我们他的学生皮特·杰夫斯( Pete Jeffs)的一个惊人的发现:他们观察到兰格利在80年代早期测试到的果蝇的乙醇脱氢酶基因的第二位点具百所有假基因的特征。这一被认为没有功能的假基因失去了原有基因的所有内含子和翻译蛋白所必须的起始密码:前一现象表明这一假基因是通过对被修饰的RNA 反转录形成的DNA片段随机插入基因组形成的。他们推测这种随机插入不会有可能置新的假基因位点于一个已存在的足以赋予新功能的调控系统之下。后来我发现这正是由于他们随传统思想方法而犯的一个致命的错误。
阿系伯纳--杰夫斯实验在当时是一个不寻常的发现。因为,人们虽然在哺乳动物中已发现了许多经反转录形成的假基因 此前从未在无脊椎动物(如果蝇)中观察到类似的基因,尽管人们已经知道无脊椎动物细胞里有形成比基因最重要的反转录酶。于是,阿系伯纳--杰夫斯实验似乎解决了一个久己存在的逻辑悖论。然而,这一观察为我的研究提供了第一个严格检验中性进化理论的基础是否牢固的机会。假如这一基因位点没有功能,因而不曾接受任何自然选泽所其分子变异的所有特征都应当符合中性进化论的精确理论预期。当时实验室的一位博士后研究员现剑桥大学的遗传学家埃迪·福尔摩斯(Eddie Hols) 评论我的实验将成为分子进化领域的一项决定性的工作。但是后来的实验证明埃迪的话只说对了一半。
(五)
按照90年代初分子生物学的发展水平和我们的课题目标,注定我在此后的一两年间,将在暗无天日中度过:对自然界含有这一假基因的果蝇的许多群体中的抽样个体,运用刚发明的多聚酶链式反应,将假基因的DNA放大到可以测量DNA序的足够数量,然后逐一进行测序的化学反应,读出每一个体的DNA序列,鉴别所有个体间核苷酸差异。不断重复同样的实验,测定一个又一个的果蝇。每一次测定都是在汗流浃背中处理完危险的同位素标记。我不知道最后的结果。我只是以比常人大一千倍的耐心,做完所有的实验。我期望着完成后进行理论分析的快乐时光!一年后的一天,兰格利教授关切地问我:"您的脸色苍白,您的身体吃得消吗?"我竟感到没有说话的气力了。我耽心看不到最后的结果,终于去了多年不去的医院。医生们告诉我,我所需要的一切只是休息,这无疑对我是个好消息。
两年以后,当我出于好奇违背当初的课题设计,以一种新的方式分析那厚达盈寸的DNA序列时,新的结果把我再次抛向理智和勇气的深渊。我发现所有存在的核苷酸突变, 似乎都选择遗传密码的第三位置上。本来应随机分布的突变,现在却遵从只有具备翻译蛋白的功能基因才应遵从简并性!简并性意味着改变密码但不改变密码决定的氨基酸;意味着自然界的DNA变异似乎不改变蛋白质的功能,从而免于选择淘汰。如果这是一个假基因,我们应当期望所有变异将均习分布在密码子的3个位置上。其次,似乎所有的突变都避开了通常假基因的无义密码及导致密码错译的移码突变。最后我还看到群体变异远远低于假基因应有的变异程度。
"小伙子,您给我们原有的研究课题以及剑桥的阿系伯纳的研究戳了一个大洞,您往后的路可能更艰难!"兰格利这样说。我知道我必须作一次选择:或是继续承认这是一个假基因,而把所有的观察视为反常现象,然后写一篇不疼不痒的博士论文;或是鼓起勇气挑战阿系伯纳这位声名远扬的剑桥的遗传学先驱,告诉他犯了一个大错。他们所观察到的不是一个假基因,而是一个新的功能基因。这预示着我们将要探索一个过去从未有可能探索的问题:基因是怎样在自然界产生的?
选择第一种做法似乎更安全。这意味着既不挑战前人也不为难自己。而选择第二种做法,我将接受严峻的考验,因为我必须跨越不同的领域,继续掌握新基因功能的形成结果与条件。学术研究上的少数派常常被认为是不安全的,我将在怀疑的眼光中勇敢地做下去。一位获诺贝尔奖的华裔科学家讲得好:在学术上寻求妥协不是科学家应有的传统。于是,我义无返顾地选择了后者,开始了与原有方向相反的漫长旅行。
(六)
兰格利是一位严格的老师,也是一位在学生有困难时总是给予真正帮助的。富有责任心的美国教授。他为我清来了果蝇分子生物学专家、加州大学的肯尼斯·贝迪斯(Ken Burtis)教授。我试着按贝迪斯的建议,开始夜以继日地做着探索表达功能的实验,但都没何结果。半年以后,系里一位来自广东的学生黄宁建议的两个实验被我顺利完成。我不仅证明,这一假基因不但有特殊的转录方式,而且有奇异的狮身人首式的嵌合结构。阿系伯纳和杰夫斯观察到的只是基因极复杂结构的一部分,而我和我的同事们证明了一个充整的分子起源过程。两百万年前,两个果蝇物种的共同祖先物种的基因组里,一个反转录形成的乙醇脱氢酶DNA片段,插入一个普遍存在的"帝"'基因的内含子,借用其操纵系统和起始密码,合成一个独特的嵌合蛋白。我的实验室证明了非常复杂的多个基因参与的嵌合过程。"这是何等不可思议的过程!"芝加哥大学的同事们这样评论。
其次,这一新突变体是怎样在自然物种中被固定成为一个标准的新基因呢?我们的进化分析表明,在这一新基因形成之初,大量的氨基酸序列替换,在位置上非随机地改变基因的功能部位,其改变的速度高出普通基因50至100倍。这些资料第一次向人类展示了新基因的起源怎样地塑造了面临新环境变迁的生物物种。由此,我们窥见了达尔文适应进化由分子控制群体的强大选择力量,这种力量是通过对新基因创造的控制得以实现的。
加州的一份主要报纸在头版报道了我的发现,并称之为"拯救了危机中的达尔文理论"'。这虽夸大了这一发现在自然选择作用方面的意义,但它的确给刚发生的分子进化革命的中性进化论投下了一个值得思考的阴影。
分子生物学家在他们的事实与问题的世界里,保有着一个因工作所需但又可以与温情脉脉的人文科学相关的特权:给所发现的每一个基因命名。兰格利这位对东方文化有着浓厚兴趣的爱尔兰后裔,对我的基因命名有两项特殊要求:首先,我的命名必须能反映中国的人文历史,他想借此测验一个文革后期中学毕业并下乡插队的中国青年还知道多少传统的中国文化。其次,命名必须反映我的发现的科学性质。否则,他开玩笑说,我将拿不到毕业证书。
于是,那位乡下老人讲述的古老传说浮现在我的眼前。炎帝的女儿在东海溺毙,然后变成美丽的小鸟精卫,每日衔西山本石以填东海。这不就是那个经反转录形成的基因死去又复生成新的基因结构,给物种以新的功能的写照吗?精卫鸟以善良的愿望拯救他人与东侮,精卫基因则以新的功能帮助一个物种以适应新的生存环境。
不久,美国《科学》杂志的副主编苏克·柏克斯(Suki Parks)通知我,《科学》将发表我关于"精卫"'基囚的论文。她希望我把命名精卫基因的神话传说译成英文在文末发表,这样,在《科学》那本已十分拥挤的版面内,多出了一段几千年前中国古老的神话传说。
这一年我被选为加州大学(戴维斯)1993年度最优秀的博士研究生。赢得了这所大学最高荣誉奖一一一埃伦·玛奖(Allen Marr prize)。研究生院还举行了隆重的授奖仪式,但是。我想这或许只是精卫这个古老而美丽的东方神话在这个历史并不久远的国度带给我的一份礼物吧!
(七)
" 带着精卫基因去发展您的科学生涯吧!这不是我的发现,而是您的创造。"
毕业在即,我的老师兰格利这样对找说。他说他没有预见到我的研究会朝一个新的学科发展;他没能指导我对这类问题的分析,我知道老师的谦逊满含着对学生深切的期望。
不久,我收到8封来自美国一流大学的博士后邀请。其中,来自哈佛大学细胞生物系主任、诺贝尔奖得主沃尔特·吉尔伯特的信让我度过了一个不眠之夜。信是这样写的:"我很高兴邀请您来我的实验室做博士后研究员。您可以继续做"精卫" 新基因的研究和其他与新基因结构有关的研究。"
吉尔伯特的经历在众多的西方科学大师中有着独特的传奇色彩。这是一位被《纽约时报》称为"天才", 被吉姆·沃森称为他一生中看到的最聪慧的人物,他高中时的校长曾预言,吉尔伯特将会是一个"给我一根杠杆,我将移动地球"式的创造性人物。 他1958年在剑桥大学拿到数学博士后,很快成为哈佛大学的理论物理教授。4年以后,正当他的理论物理生涯蒸蒸日上之时,他突然辞掉理论物理教职,而投身于60年代初由吉姆·沃森等人发起的分子生物学的科学革命中。此后的十多年,他和沃森等人一同奠定了当代分子生物学基础,并于1983年获得了诺贝尔化学奖。80年代初,他开始研究遗传系统的进化,并再一次离开了以前的领域--生物化学和传统分子生物学,同时指导和创立了美国最大的生物工程产业,克隆了第一个人类乳腺癌基因,许多不同领域的研究人员都把他当做本领域的领导,而不知道他同时还是其他领域的先驱。对我,吉尔伯特是一个类似《荷马史诗》主人公奥德修那样的人物。
但是,我有勇气成为这样一位科学大师的陪士后研宽员吗?他那山奇的怪想法和对身边研究人员的严洛,与他在学术上的荣誉一样名满欧美生物科学界。
"您想去他那里吗?那么在他面前,您必须所有的时候都优秀!否则您可能被一次错误所淘汰!"系里一位教授警告我。
又是一次选择!而且可能是一次对事业关键性的选择。按我周围美国同事的看法,就我的情况而言,去哈佛是冒险。因为他们认为,我在博士生期间已经作出了第一流的工作在。论我去其他7个实验室中的哪一个,都会顺利做完博士后研究并找到教授职位。
这时,我读到著名华裔物理学家丁肇中的传记。他的经历激励着年轻人在学术生涯的发展中敢于冒险。我想,过去的磋跎岁月已经浪费了我不少时光,如果再不冒险,往后将不会再有多少冒险和由此可能带来的发展机会了。"生于忧患,死于安乐。"走向平庸的舒适不是我们应当追求的。
"朝闻道,夕死可矣" 去听听智者的声音,是多么有诱惑力的一件事啊!更何况,在那里可以继续"精卫" 基因的进化研究。于是,带着一箱子研究"精卫" 的资料,我登上了去哈佛大学所在地波士顿的飞机。
(八)
"精卫" 基因的起源清楚地证明了由反转录产主的DNA片段与其他基因编码区的重组过程。这一过程的编码区(外显子)的重组,在20年前真核生物基因内的干涉顺序(内含子)刚发现后,即由吉尔伯特所预料,但是由反转录产生的DNA参与重组过程则是吉尔伯特当时所未曾料到的。在他的早期理论中,发生在基因组序列水平上的非同源重组被认为是主要机制。但是无论重组过程的分子细节怎样,由不同基因的外显子重组以构成新基因结构则是吉尔伯特重组理论的核心。这一理论远远不同于大野·乾的基因重复理论后会在概杏上认为基因的每个核苷酸都重要,而前者则认为基因显子为最起码的重组功能单位,因而能解释已存在蛋白亚单位的有限性。
那么,由"精卫"所代表的基因结构形成的分子机制是否在真核生物新基因产生过程中普遍存在?这种机制是否在生命存在的早期就已经开始?
这是我在哈佛大学4年中研究的主要问题人。运用吉尔伯特实验室的专业设备同时应用分子生物学实验和分子信息学的计算手段研究基因的起源。通过对几百 份DNA序列的生物信息分析我证明了外显子重组机制的普遍性,这是一个多学科交叉的领域,涉及分子生物学重组机制的实验、分子进化论,统计概率论和计算科学。下面我将着重描述分子生物学原理及对大规模分子统计行为的影响。
由于新基因的DNA序列进化速度很快(如"精卫"所 示。快50至100倍),因此,若起源的基因进化年代比较久远,基回的重组关系常常变得不可鉴别。于是我们工作的重点是寻找迸化上保守的墓因分子特征。我们发现最保守有用的分子特征,是基因的干涉顺序(内含子)的相位的生物信息分析的结果改变了许多传统的关于基因结构的观点。
内含子相位是由麻省理工学院的内含子发现者菲立浦·夏普定义的,它指内含子在基因内相对于遗传密码的3个该苷酸的位置。如果一个内含子呈处在乏个完整的密码问,则这一内含子定义为相位0;如果内含子是位于密码子内的第一和2个核昔酸之后,则定义力柏位)和相位2。因此,内含子相位是一"个只包括3个变量的极力简单的分子特征。内含子相位可以在相隔几亿年甚至十亿年保持恒定不变,因为导致相位变化的任何DNA小片段的缺失与插入都可能导致基因功能完全改变的移码突变,而被自然选择淘汰。
另一方面,到今天为止的分子生物学研究表明内含子通常是没有功能的。因此无论内含子的相位是什么,都会因为不影响基因功能而免于自然选择被保留下来。这就构成了内含子相位的随机统计分布预期的生物学依据。
要测验内含子相位的随机分布的预期结果似乎是一件再简单不过的事。但买际的研究过程却是一场前所未有的考验:这是由于真核细胞生物,特别是人类的基因组中,存在大量的相似的重复顺序。不把所有的DNA相似序列剔除掉,任何分析都将带来不可估量的偏差。因为相似的DNA序列所含的相似的内含子相位,是由共同祖先基因起源的,不反映基因组的一般性质。但是,重复序列的剔除工作非常困难。首先,要求数百亿次序列高敏感的比较。一开始,吉尔伯持和我都低估了技术方面的难度,我们设计了一项当时领域里最灵敏的方法,去寻找淘汰重复序列。经过半年紧张的技术努力,终于完成了几百页的结果报告。我以忐忑不安的心情把报告送给了吉尔伯特,等待着他的第一次判决。第二天,他简短地告诉我:" 忘掉这份报告,重来!"这话包括两个信息:第一,我们的方法没有达到他的高要求;第二,他没有淘汰我。但怎样大规模自动化定义基因家系,当时我们领域里没有任何人知道。两年后,麻省理工学院的另一位诺贝尔奖得主菲立浦·夏普(Phlllin Sharp)在《纽约时报》评论我们在作一件最困难的课题。
在这个过程中我知道了吉尔伯特培养青年研究人员的两个特点。第一,在设计课题时只考虑所研究的问题是否有重要意义,而技术可能性则不在考虑之列。第二,对进行研究的年轻人在技术上提出很高的要求,让他们在" 山穷水尽" 的困难中奋斗,并在这一过程中选择或淘汰他们。面临困境时弱者选择了退却,而强者获得了成功。
此刻,面对着吉尔伯特这位严厉的。当代西方科学界最辉煌的智者之我开始懂得来哈佛之前同事们劝告的具体含义。去斯坦福,去芝加哥,去杜克,或去哈佛另外一个实验室,我也许会容易得多。但是,我已经选择了冒险。我只能想象纵身跃入结满浮冰的小河的体验,也许是不多的人所能体验喜悦。在云贵高原上,我们曾接受过大山的挑战。当然,在感情和意志的世界里,我最终还得在理智上找到目前技术挑战的答案。半年过后,经过无数次的验证,我再一次将报告送给吉尔伯特,他的脸上终于露出了少有的笑容。
在这些研究中,我证明以前领域里所有的有关猜想都是错误的。我发现了内含子相位在真核生物基因组核基因的普遍非随机分布,更让人惊讶的是基因内含子相位的对称分布,即同种内含子的相依现象。这样的对称分布,揭示了作为"精卫" 基因创造机制的外显子重组的普遍性。我们发现至少一半以上的真核生物基因,曾经历了类似"精卫"基因的起源过程。这些工作描述了第一幅关于基因起源的详细图景,于是,"精卫" 基因起源所代表的机制从特殊到普遍意义都开始得到了证明。
(九)
新基因起源这一新的领域正得到越来越多的注目与支持。该领域的知识已为欧美国家出版的分子进化方面的主要教科书、参考书所吸纳。我们对"精卫"的研究赢得了美国基础科学领域对青年教授的最高奖项之一--帕克基金奖(packard Fellow-ship in Science and Engineering ),并被选力美国科学前沿课题之一。这是对所有参与和支持新基因起源的科学工作者的鼓励,是我们--包括我以前的老师和我实验室的全体成员共同努力的结果。我应当特别感谢由于篇幅所限不能详悉提及的我的另外两位老师,哈佛的莱旺顿教授、加州大学的格列斯匹(John Gillespie)教授以及剑桥大学的阿系伯纳教授对我研究工作的非常开明的支持。
去年夏天,我又回到云贵高原那个流水潺潺、绿叶葱茏的山村。我默默地向那位已经不能再见的老人讲述了" 精卫" 复生变成小鸟以后的故事。我告诉他,这故事比他当年讲的传说长多了。" 精卫" 象征着一个新的科学探索领域的诞生,它揭示了一个美丽而令人不可思议的世界,这将是一部由我们和未来的生命科学工作者谱写的新的篇章。