破解DNA的信息编码

来源:百度文库 编辑:神马文学网 时间:2024/04/19 09:12:15
人类基因组的DNA序列已全面测序完毕近八年了,可是人们对人类基因组的DNA序列的作用依旧是一团迷雾,绝大多数的DNA序列究竟是如何发挥作用的?而DNA序列到底有那些功能?这些依然是摆在人类面前的一道难题,要想读懂这部天书我们还是先看一本关于破解密码的小说《暗算》的故事情节。在小说中我公安人员已收到了敌人的电文,可是不知道破解密码的密钥,因此仍然无法掌控敌人的活动意图,直到由数学家黄依依破解了敌方的密钥后才取得了斗争的主动权。而我们人类现在做到的只不过是掌握了生物特别是真核细胞活动的“电文”而如何去解读这些“电文”的内容将是摆在人类面前的一项艰巨的任务。而破解这些“电文”—人类基因组的DNA序列首先得解决以下的问题。
第一点:必须充分认识人类基因组的DNA序列在细胞的生长的全过程中所起的作用和特点。
人类基因组的DNA序列在细胞的生长的全过程中起着提供细胞的生长的全过程中的各项活动所必须的信息编码和各项活动所必须的调控编码,人类的细胞的生存和生长的全过程中人类基因组的DNA序列要完成DNA序列的复制,DNA序列向RNA的转录,以及根据DNA序列向RNA的转录后的RNA向蛋白质的翻译的过程是一个极其复杂而又十分精准的活动,而这一都赖于DNA序列提供的信息编码和各项活动所必须的调控编码,而人类基因组的DNA序列是如何发挥作用的呢?我们还是从与人类创造的电子计算机的操作系统所必备的运行机制谈起,电子计算机的操作系统要想正常运转必须具备以下条件:(1):必须能以数字串表示其要操作的内容,同时要求该数字串必须有足够的数量长度,目前计算机的操作系统是以二进制的数字串来编写程序的而且数字串有足够的数量长度现已进入六十四位,其编码的长度为264,也就是说一条指令长度可以执行多条短指令的内容。(2):必须有高度的容错能力。在当代的操作系统其程序无一不具备高度系统的容错能力。在操作系统其程序中如果没有高度的容错能力整个计算机的操作系统一旦某一程序段出现故障就会导致计算机运行的瘫痪。现代计算机系统为了解决单机容错能力不足的问题,采取了多机联机运行的方法以保证其运行的安全性。(3):具有操控多机网络化并行的运行能力。具备交互的运行机能是当代计算机的操作系统的基本功能。现在我们分析操作系统其程序的编码中绝大部分是非输出语句,更多是控制、输入、循环、分支、判断、赋值等语句的程序编码其占有量为整个程序编码99%以上。如果没有这些语句计算机根本无法运行。有了计算机的操作系统的标准我们来看真核细胞的染色体的DNA序列以及由其转录的RNA序列与计算机的操作系统有高度的相同度。第一:真核细胞的染色体的DNA序列以及由其转录的RNA序列就是一个以4为底以DNA序列以及由其转录的RNA序列的总长度的数字信息编码。第二真核细胞的染色体的DNA序列以及由其转录的RNA序列中的非编码的序列包含了对真核细胞的生长和整个生命活动的控制、输入、循环、分支、判断、赋值等语句,同时DNA序列以及由其转录的RNA序列中的非编码的序列包含了真核细胞的生长和整个生命活动的容错编码。而真核细胞的生长和整个生命活动的容错编码保证了其生存安全性。有些人通过试验删去某些非编码的序列,结果真核细胞的生长和整个生命活动照常运行,这正好反映DNA序列以及由其转录的RNA序列中的非编码的序列包含了真核细胞的生长和整个生命活动的容错编码具有足够的安全性。如果没有DNA序列以及由其转录的RNA序列中的非编码的序列包含了真核细胞的生长和整个生命活动的容错编码,细胞一旦出现问题就会发生灾难性后果。第三:我们已知真核细胞的染色体的DNA序列的复制以及由其转录的RNA序列就是一个具有操控多通路网络化并行的运行能力的系统。真核细胞的染色体的DNA序列的复制以及由其转录的RNA序列就是一个多起点并行复制和转录的序列。由此可见DNA序列以及由其转录的RNA序列中的非编码的序列占有真核细胞的染色体的DNA序列以及由其转录的RNA序列的97%以上是必然的。那么以上是否仅仅是我们的推断呢?回答是否定的。根据大量的科学实验,特别是最近的一些研究成果都支持我们的观点。现附上一篇文章。文章: DNA链上存在基因“隔离墙”
包括日本科学家在内的一个国际研究小组在最新一期英国《自然》(Nature)杂志网络版上发表论文称,他们发现人类DNA(脱氧核糖核酸)链上存在约1.3万处“隔离墙”,这些“隔离墙”将相邻的不同基因隔开,使它们互不干扰。基因记录了合成生命所必需的蛋白质遗传信息。人类共拥有约2.5万个基因,如果要让这些基因有序地发挥作用,就必须防止不同类型基因之间的相互干扰。所以科学家早就猜测,不同基因之间应存在某种“隔离墙”。
由日本东京工业大学、三菱综合研究所等机构的人员参与的这个国际研究小组全面分析了在DNA上发挥作用的蛋白质种类和它们所处的位置,最后将研究重点集中于一种名为“cohesin”的蛋白质。这种蛋白质呈环状构造,DNA链就从这种蛋白质的中洞穿过。科学家在人类DNA链上共找到约1.3万处由“cohesin”形成的“隔离墙”。如果科学家使这种“隔离墙”失效,则会出现原本不该发挥作用的基因开始发挥作用等异常现象。被“cohesin”分开的各个区域含有的基因数目从1个到30个不等。科学家认为,被这种蛋白质隔离的基因以区域为单位承担各自的遗传功能。(来源:新华网 钱铮)(《自然》(Nature),doi:10.1038/nature06634,Kerstin S. Wendt, Jan-Michael Peters)
本文充分说明了非编码基因在真核细胞的生长和整个生命活动的调控作用。此外我们必须指出的是计算机的操作系统是在人的操纵下运行的,而真核细胞的生长和整个生命活动的调控作用是自主运行的。
第二点:从操作系统上看一个程序的正常运转必须要有一个固定的读码长度否则将无法的读取操作系统上的信息与编码,已知操作系统的常用固定的读码长度主要有8,16,32,64位共有四种,分别用于不同的方面即便是一个操作系统其依旧包含多种读码的方式,我们以64位的操作系统为例,其可以按8,16,32,64位的方法去读取编码,但其最大的读码长度不超出64位的编码,在数学称之为向下兼容也就是说64位操作系统向下兼容8,16,32的程序的读码方法。但低位的操作系统不能读取高位的操作系统的程序编码。DNA和RNA基因编码含有丰富的信息内容,要想充分认识和了解其所包含的内容,就必能解读DNA和RNA的信片断所含的内容.而要想了解DNA和RNA所包含的信息内容,就必须解决DNA的读码长度的问题。而长期以来人们都认为DNA和RNA的读码长度是三联码,而DNA的序列是三联码,则信息量只能反映4*4*4=64种生物活动,远远不能满足反映数十万种生物形态和数以万计的细胞活动的需要。这就需要我们突破原有的思维模式,DNA的序列是用三联码作为读码长度的思维误区。实际上DNA的序列的读码长度并不是三联码,而是RNA向蛋白质翻译的读码长度是三联码,而在RNA向蛋白质的翻译的过程中是依靠tRNA的反密码子与mRNA的信息编码相识别来排列氨基酸的。但是这决不是DNA的复制和DNA向RNA转录的过程中也是按三联码的读码长度来解读的。那么DNA的复制,DNA向RNA转录的过程中是按什么读码长度来解读的呢?我们认为DNA的读码长度要满足以下的原则。
(1) 满足生物多样性的要求。
(2)能耗最小的要求。
(3)要有足够的读码长度。
(4)要有充分的稳定性。
(5)要符合三联码的要求。
根据组合数学的有关定理可以知道DNA的读码长度有多种选择方式。这与碱基的读码长度有关,如果碱基的读码长度为X,则根据碱基的种类有四种,而其作为底数,则有公式如下:反映DNA序列的读码信息量=4X。而如果对X的值分别取为6、9、10、12,则可以反映的信息量分别为46=4096原则49=262144,410=1048576,412=16777216。这是DNA聚合酶中的五种酶按一种方式读取DNA序列的情况,如果每一种酶有一种读码方法,那么信息量的反映的数量将是十分多样的。这不符合原则(2)的要求。故此我们DNA的聚合酶的读码方法只可能采取统一的方法。但是读码长以度是采取6、9、10、12中的那个值,这需要我们深入的进行分析。首先6作为读码长度,其反映以的信息量只有4096种,不能满足生物活动的要求。其次9作为读码长度,读码长度的信息量有262144种,能够满足生物活动的要求。再此取10作为读码长度,读码长度的信息量有1048576种,能够满足生物活动的要求。最后12作为读码长度,读码长度的信息量有16777216种。对此我们认为9作为读码长度可以满足生物活动的要求。因此取9作为读码长度。这只是数学上的分析研究。而生物活动的要求是有事实依据。那么我们根据对DNA的序列分析研究发现:线粒体的DNA序列的碱基对是16569bp,其可以被9整除,即16569/9=1841。此外再DNA序列的着丝粒的重复序列中有171bp,其可以被9整除,即171/9=19。综合上所述:取9作为读码长度是合理的。那么10和12是否是合理的读码长度尚难下结论。因为DNA的序列总长度是三十亿对碱基,取10作为读码长度,也是有可能的。但是其不符合三联码的要求,因为10不被3整除。除非三联码不是读码的基础。这仿佛与已知的事实不符,但是到底如何尚待研究。至于DNA向RNA转录的过程中我们认为应该与DNA的复制相同的读码长度,而RNA向蛋白质翻译的过程是按三联码读取的。这是因为DNA向RNA转录的过程中,DNA是全部向RNA转录的。因此RNA的聚合酶在读码时也是按九联码来读取的,否则RNA在剪接、编辑、修饰等活动时不按九联码读码,将会缺少调控程序的编码,这是不可能的。至于RNA向蛋白质的翻译过程中,其读码长度是按三联码来读取的。原因在前面谈及,不再讲叙。但是从前面的叙述我们知道内含子是解决和充分认识DNA作用的关键。而解读DNA的序列内容的关键就是确定读码长度,而读码长度就必须从此6、9、10、12这四个值之中选定一个。而我们提出读码长度按九联码来读取,是基于线粒体的DNA的碱基对为九的整倍数的这一基本事实。然而仅靠这点是不够的,还须生物实验给予说明。总之读码长度的确定一般来说会在6、9、10、12这四个值中的某一个里产生。以上仅仅解决了读码长度的问题。但是谁是读码的主体,即由谁来读码。我们认为应由DNA聚合酶和RNA聚合酶分别去读DNA和RNA的序列的信息编码。
第三点:要想读懂DNA和RNA的序列的信息编码还必须做以下的工作。
(1)读懂DNA和RNA的序列的信息编码的信息含义。破译了读码长度仅仅是第一步,而确定每一个读码长度所包含的信息含义是一项十分复杂的工作。从组合数学来看读码长度为6、9、10、12,则可以反映的信息量分别为46=4096原则49=262144,410=1048576,412=16777216种信息含义。而这些信息含义各代表什么,则需要通过还须生物实验给予说明,而这一工作量是十分艰巨的。它需要生物学家,数学家,信息科学家,计算机专家通力协作才能解决DNA和RNA的序列的信息编码的信息含义。特别是数学家 ,计算机专家 在此要发挥更大的作用。
(2)要处理好共性与特性的问题。
DNA和RNA的序列的信息编码的信息含义要想读懂特别需要对整个基因组来说必定有共性的部分,但是更重要的是其特性部分。例如人的正常细胞和癌细胞也许决大部分是有共性的部分,而区别两者的必定是其特性部分,而这特性部分正是治疗癌细胞关键。因此采用对比分析将是把正常细胞和异常细胞区分开来的关键。此外DNA和RNA的序列的信息编码虽然在序列长度上是基本相同,但读码的主体不同则反映的内容必定不同。
(3)要注意抓住重点部位。
DNA和RNA的序列的信息编码的信息含义中有的部分就是唯一的,例如端粒子和线粒体就是典型。那么端粒子的作用是什么呢?我们认为长期以来人们对端粒的作用认识不清,现在我们可以有把握的说端粒通过其长度的缩短来反映染色体的DNA和线粒体的DNA的受到损伤的程度。其公式如下:
端粒的现有长度=端粒的原有长度*(100%—染色体、线粒体的DNA的受到损伤的百分比)而根据木桶盛水的最短木板的原理,我们认为端粒反映的是DNA的受到损伤染色体、线粒体的DNA损伤最严重的DNA序列。而人们经过长期研究发现染色体、线粒体的DNA序列中线粒体的DNA序列的DNA片断更容易受到损伤,而造成线粒体DNA序列的主要原因就是受到各种氧化物的氧化,而造成线粒体DNA序列氧化的主要物质就是肉食品和油脂类的食品,除了受氧化物质的损伤外,DNA的复制的次数即染色体、线粒体工作强度也是造成DNA的序列损伤的原因。因此人们通过吃素食和节食可以减少对DNA序列的损伤,从而延长人们的寿命。因为素食特别是蔬菜含有大量的抗氧化的成分,可以保护染色体、线粒体的DNA序列片段不被氧化或减少氧化的程度。而节食可以减少染色体、线粒体工作强度,从而延长DNA序列的工作时间,由此达到长寿的目的。
我们对线粒体作用的推断可由下文说明:
创建出细胞线粒体蛋白清单
由美国麻省理工学院和哈佛大学布罗德研究院、哈佛大学医学院和马萨诸塞州总医院的科学家组成的联合研究小组,创建了迄今为止最全面的细胞线粒体的“组件清单”——一个包含近1100个蛋白质的数据库。通过对这一重要资源的挖掘研究,科学家不仅对几种关键蛋白质的生物角色和进化历史有了更深入的理解,而且确认了一种新的蛋白质编码基因的突变,这个突变会导致致命的线粒体疾病。有关结果发表在7月11日出版的《细胞》(Cell)杂志上。
由美国麻省理工学院和哈佛大学布罗德研究院、哈佛大学医学院和马萨诸塞州总医院的科学家组成的联合研究小组,创建了迄今为止最全面的细胞线粒体的“组件清单”——一个包含近1100个蛋白质的数据库。通过对这一重要资源的挖掘研究,科学家不仅对几种关键蛋白质的生物角色和进化历史有了更深入的理解,而且确认了一种新的蛋白质编码基因的突变,这个突变会导致致命的线粒体疾病。有关结果发表在7月11日出版的《细胞》(Cell)杂志上
线粒体:能量制造工厂
890年,R•阿尔塔曼(Altaman)首次发现线粒体。线粒体是一种微型器官——通常称之为“细胞器”,它存在于从酵母菌到人类的所有真核细胞中。细胞必须有能量的供给才会有活性,线粒体就是细胞中制造能量的器官,科学家因此给线粒体起了一个别名叫做“powerhouse”
即细胞的“发电厂”
生命每时每刻都在呼吸,目的是把氧气吸入体内用于制造生物体可利用的能量分子ATP。线粒体利用氧气制造能量的过程类似于发电厂燃烧煤发电。线粒体内有两个主要部件参与能量的制造,一个部件叫做呼吸链,它直接利用氧气把食物“燃烧”———即细胞内氧化磷酸化,把食物中储存的经过光合作用固化下来的太阳能释放出来;另一个部件叫做三磷酸腺苷酶(简称ATP酶),ATP酶本质上是一个可以发电的分子马达,像锅炉燃煤推动发电机转动产生电流一样,固化的太阳能释放出来推动分子马达的转动以制造能量分子ATP。线粒体不断制造ATP分子是维持生命的动力。
在生物体内一系列正常的生物过程,以及异常的发病过程(如糖尿病)中,线粒体也扮演了重要的角色。
蛋白质清单:有待发掘的宝库
继1963年S•纳斯(Nass)发现线粒体DNA(mtDNA)后,科学家又在线粒体中发现了RNA、tRNA、DNA聚合酶、RNA聚合酶核糖体、氨基酸活化酶等进行DNA复制、转录和蛋白质翻译的全套装备,说明线粒体具有独立的遗传体系。不过,虽然线粒体也能合成蛋白质,但是合成能力有限。线粒体约1200种蛋白质中,自身合成的仅十余种。线粒体的核糖体蛋白和许多结构蛋白,都是核基因编码,在细胞质中合成后定向转运到线粒体的,因此线粒体被称为半自主细胞器。
即使现在已经有大量的基因组序列数据,科学家还是不能确认,究竟是哪些基因主宰了大约1200个让线粒体发挥功能的蛋白质的编码。在线粒体中起作用的究竟是哪些蛋白质?这是多年来细胞生物学中一直未能回答的一个基本问题。
论文作者之一,布罗德研究院蛋白质组学研究平台主任史蒂夫•卡尔则表示,能够对蛋白质进行大规模测量的技术和分析方法正在改变着科学家对人类生物学的研究。利用这种技术,他们对从14种不同的老鼠组织中分离出的线粒体进行了研究。这是迄今为止科学家完成的对一种细胞器进行的最全面的蛋白质组学分析。
研究人员一共鉴定了1098个线粒体蛋白质,并将它们组成了一个名为“MitoCarta”的蛋白质库,这个库将对所有科研人员开放。领导此项研究的哈佛医学院助理教授范思•穆萨指出,这个线粒体“蛋白质清单”的创建,将有助于研究者更好地理解线粒体生物学和线粒体疾病。
让致病真凶无所遁形
研究人员从进化的角度对细胞器的蛋白质进行了仔细检测,并且惊奇地发现,一组关键的线粒体蛋白质从几种单细胞物种中消失了。在拥有它们的有机物(包括人类和其它哺乳动物)中,这些蛋白质组成了一个靴子状的多蛋白结构,称为“复合物I”,它是能量产生过程中一个关键步骤的通路。
这些发现不仅加深了科学家对线粒体生物学的认识,也为科学家在线粒体疾病研究方面取得突破铺平了道路。几十年来,医学研究者已经诊断出某些疾病源于“复合物I”型缺陷,这些缺陷是遗传性的,会影响到五千分之一的新生婴儿,在婴儿生长的最初几年有可能是致命的,但是致病基因却一直没有找到。借由“MitoCarta”蛋白质库以及其相应的进化分析,澳大利亚墨尔本大学和皇家儿童医院的研究者最近确认,在一个名为C8orf38新基因中的一个突变,就是导致“复合物I”型疾病的元凶。
穆萨认为,这个蛋白质清单,不仅对一些罕见的新陈代谢疾病的治疗,也为那些常见病的治疗开启了一扇希望之窗。(来源:科技日报 李学华)
以上是我们对线粒体作用的认识,而线粒体本身的DNA的序列是不能缩短的,否则将无法工作但是其受到破坏的状态又是要反映的,故此反映线粒体本身的DNA的序列的受到破坏的状态的程度就由端粒子承担。端粒子具备以下特点,其可以不断缩短,而没有达到最低长度之前不危及真核细胞的生长和整个生命活动,故此我们认为端粒通过其长度的缩短来反映染色体的DNA和线粒体的DNA的受到损伤的程度。
(4)要满足生物互补性的要求。
在人类基因组的DNA序列这一特点极为明显。DNA序列双链互补这即是细胞生长的要求也是生物稳定性的必然结果。此外在蛋白质的合成过程中tRNA的密码子与反密码子的相互作用,这为我们破解DNA和RNA的序列的信息编码的信息含义也可以起着帮助作用。
(5)生物读码的实现的多层次性问题。
在人类基因组的DNA序列这一特点也很明显。即DNA的复制,DNA向RNA转录及RNA向蛋白质的翻译过程中各过程的读码长度可能均不相同,而且不同的聚合酶的读取方法可能也各异。
(6)生物读码的实现的立体结构问题。
在人类基因组的DNA序列对在细胞的生长的全过程中起着提供细胞的生长的全过程中的各项活动所必须的信息编码和各项活动所必须的调控编码,人类的细胞的生存和生长的全过程中人类基因组的DNA序列要完成DNA序列的复制,DNA序列向RNA的转录,以及根据DNA序列向RNA的转录后的RNA向蛋白质的翻译的过程是一个极其复杂而又十分精准的活动,而这一且都依赖于DNA序列提供的信息编码和各项活动所必须的调控编码外,而DNA序列提供的信息编码所提供的蛋百质的三维结构及运行方法也是真核细胞的生长和整个生命活动必须探讨的。例如同样的氨基酸有不同的三联码,可是不同的三联码所翻译的氨基酸在空间及蛋百质的三维结构是否完全同构,另外同样的氨基酸各不同的三联码时与其它的三联码组合时的氨基酸在空间及蛋百质的三维结构是否完全同构,且有相同的功能这都有待于探索。
(7)要深化对由现象向机制的探讨。
我国的生物学的总体规模不小但是为什么与诺贝尔奖无缘,这与我们的研究过程的急功进利有关。没有深入下去。例如最近复旦分子细胞生物学研究室攻关发现,IDH1基因突变会抑制细胞内IDH1的活力,导致胞内KG水平明显下降,而KG的下降则进一步导致脯氨酸羟基化酶活力的降低。一系列反应导致了细胞缺氧诱导因子(HIF1)的稳定性增加,从而激活了HIF信号通路,最终促进肿瘤生长。在这一过程中,IDH1基因突变就像是为肿瘤细胞的增长大力踩了一脚油门,而复旦研究人员却为抑制肿瘤细胞生长找到了珍贵的“刹车”。 这项研究成果非常重要,但是我们进一步的提出以下的问题首先它的剎车作用于肿瘤生长的那个部分,而该部分的DNA是如果指导肿瘤细胞生长的,有无控制和导致该部分的DNA的凋亡的可能,对该部分的DNA指导肿瘤细胞生长的功能是否可敲除或逆转,这样层层深入就钻进去了。