21世纪是信息的时代,也是生物信息的世纪。这个已经被大家广泛接受。其实IT信息和生物信息有很多共同之处。本文我们将以码农的视角来学习一下DNA和生信的一些知识。
的源代码就是基因,也就是DNA。所有的基因构成了基因组。基因组大约有3KMB长,最大可压缩到750MB字节。人的DNA源码本质上也是数字的,但并不像计算机的二进制。二进制编码由0和1构成,而DNA则是有四位的:T、C、G和A。
在计算机世界中,我们有动态链接库,在生物世界中,DNA也有类似的机制,即“转码”。人类的基因组中有近一半是由转码子和跳跃DNA组成的。现在共识是,人类基因组有2w~3w个基因。
“干细胞”研究之所以如此炙热,是因为这些细胞具备表达分化为各种功能细胞的能力。每个细胞都可以做出关于其未来功能的决策,使其分化为更加专业的功能细胞。这个决策是相对恒定的,即天生的或基因注定的。
当比较不同的物种时,我们发现一些内含子显示的编码变化要显著少于邻近的外显子。这说明在生物进化和信息存储中,注释也起着重要的作用。
在细胞中,所有的一切都像是精心编排的舞蹈。就像Unix系统中的进程一样,细胞通过fork机制进行繁殖。所有的细胞都从开始,要被fork很多次。
和信息安全性一样,在生物界中也很难在安全性(如细胞不能随意)和可用性之间取得平衡。就像著名的“暂停问题”一样,我们无法预测一个生物程序(即细胞)何时会完成其功能,就像我们无法创建一个不会患癌症的功能基因组一样。
当蛋白质在细胞中相互作用时,许多与其他蛋白质相互作用的蛋白质无法快速进化。这是因为内部的依赖性抑制了蛋白质“合约”的变化。换句话说,生物体中的许多过程都需要各个部分协同工作,才能共同进化。
近年来,人们开始探讨将某些基因或DN段插入其他生物体的可能性。这方面有大量的研究和尝试,但实践证明这非常困难。研究者们已经发现了能够基因组保护并修复损坏基因的合适病毒。
就像计算机存储一样,DNA也会损坏。为了防止常见的“存储错误”,编码过程中采用了高度简并的氨基酸,以确保即使发生小的错误,也能产生相同的输出。
生物体的基因组就像一个自举的编译器和工具链。要创建一个新的生物体,需要一个副本作为起始点。就像C语言的编译器需要其他语言编写的工具链来编译自身一样,生物体的基因组也需要精妙的工具链来进行复制和表达。
同源异型(HOX)基因是生物体中非常有趣的一部分。这些基因通过创建化学梯度来帮助细胞感知其位置,并决定是否需要进行某些构建头部或脊索的活动。即使在不同的物种之间,这些基因仍然可以互相作用和影响。
质粒是细菌中一种非常有趣的DN段。它们可以轻松地从一个细菌转移到另一个细菌,甚至在不同的物种之间进行转移。通过注射质粒,我们可以轻松地使细菌获得某些特殊功能或抗性。