前不久,无业游民方舟子大嘴一张就破解了世界之谜,可惜前两天他那一篇抄袭之做又显示这个曾经的生化博士只怕连“基因”是啥玩意儿都没搞醒豁,要不咱今天也来破解一下基因之谜?更或况方舟子的忠实拥趸南泥湾还牵强附会地计算那个0。1%,令人哑然失笑。我已经向南泥湾提及ENCODE PROJECT,但显然并没有多少人注意到这一重大遗传学进展。在这里,我向大家推荐两篇文章:Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project。Nature 447, 799-816 (14 June 2007) 和What is a gene, post-ENCODE? History and updated definition。(Genome Res,2007 17: 669-681)。尤其是后面这篇综述更为有趣且和今天的话题相关,特将其摘要拷贝如下,希望南泥湾能去仔细阅读原文:While sequencing of the human genome surprised us with how many protein-coding genes there are, it did notfundamentally change our perspective on what a gene is. In contrast, the complex patterns of dispersed regulationand pervasive tranxxxxion uncovered by the ENCODE project, together with non-genic conservation and theabundance of noncoding RNA genes, have challenged the notion of the gene. To illustrate this, we review theevolution of operational definitions of a gene over the past century—from the abstract elements of heredity of Mendel and Morgan to the present-day ORFs enumerated in the sequence databanks. We then summarize the current ENCODE findings and provide a computational metaphor for the complexity. Finally, we propose a tentative update to the definition of a gene: A gene is a union of genomic sequences encoding a coherent set of Potentially overlapping functional products. Our definition sidesteps the complexities of regulation and tranxxxxion by removing the xxxxer altogether from the definition and arguing that final, functional gene products (rather than intermediate tranxxxxs) should be used to group together entities associated with a single gene. It also manifests how integral the concept of biological function is in defining genes.
基因这个词是生物学理论大厦的根基之一,鄙人早在10余年前就对这个概念翻来覆去地考虑,今年ENCODE PROJECT发表重访1%人类基因组序列之后我觉得“基因”这个概念或许应该这么解释:基因就是包括调控和得到转录的一段核酸序列。
我不是大牛,可能很多人会有些鄙夷地看着这么一个无奈的解释。那么我这么定义“基因”这个词,它的外涵包括些什么呢?首先,这里提到的核酸序列,包括单链或双链的DNA和RNA(诸多病毒的基因组为单链RNA,少数病毒基因组为单链DNA或双链RNA);其次,得到转录的核酸序列甚至可以人为构造,并不存在于自然界中。例如转“基因”抗病毒植物最初利用反义RNA对抗植物病毒的衣壳蛋白,就是将植物病毒衣壳蛋白编码序列倒置于某些植物病毒启动子序列之后;而后来则发现植物病毒的非编码序列更容易激发RNA干扰机制,干脆利用它们来作为转基因的TARGET,获得更好的抗病毒效果;最后,调控序列不仅仅指位于基因上游的启动子序列,还包括散布于内含子中的增强子,以及下游3'末端的调控序列(甚至很可能就是启动子的一部分,与上游的启动子序列相辅相成,缺一不可)。调控序列并入基因的一部分是非常重要的,目前很多所谓的“选择性拼接”中有多少其实正是由于转录因子选择了不同的调控序列所致。
必须指出的是,即便这么定义“基因”,人类基因组中基因数目几何,仍然是个未知数,只能说比目前理论上的数目更多。南泥湾显然也没听进去“今年之遗传学已经不是去年的遗传学”这话的意思,拿2001年的数据来说事。当然这又牵扯到生物信息学这个新生的玩意儿。生物信息学以获得的数据为基础来建立一个模型,然后再加以推广,很不幸的是,这个模型的成功与否取决于数据的可靠性和广泛性。显然目前生物信息学是做不到这一点的,例如当时有人知道今天鉴定出的这几百MIRNA了么?有人报道非编译RNA了么?那时有人知道假基因也得到转录还不算,诸多基因的反义链还得到转录么?即便是今天,生物信息学仍然捧着奶瓶,诸多结果在若干年后毫无疑义地属于“伪科学”。
生物学虽然是有规律的,但其是动态的。南泥湾居然能来这么一个加法公式“2450+3+40=25000 ”,I服了U!很难相信这能是一个搞生物学的人能计算出来的东西。说白了,生物系统之复杂性,决定了任何定量分析都是靠不住的,只能说基于以往的数据,能有一个什么样的趋势。当更多的生物学现象发现之后,这个趋势都很可能随之改变。南泥湾编写教科书的时候可以僵化一些,这个可以理解,毕竟是让那些脑子里对生物学没有概念的学生跨入生物学这个领域,但如果你在这个领域里面想发现些什么,你这种僵化的思维方式只怕有些问题。