遗传密码分析I


melmagazine.com的插图(来源:melmagazine.com/wp-content/uploads/2019/11/DNA-1280x533.jpg

当前,具有不受入侵者保护的通道的公共网络已广泛用于信息交换。在这样连接的计算机网络中,用户必须保护自己的消息。由于用户无法自己保护消息通道,因此他将保护消息。

邮件中受什么保护?首先,为此目的的语法(完整性)使用编码(代码的编码和分析),其次,使用密码学的语义(机密性)(加密和密码分析),第三,间接地,违反者可以通过隐藏其传输,它使用的事实限制了消息的可用性steganology(隐写术和隐写)。

从理论上和实践上都以不同程度提供了列出的可能性,尽管每个方向都已经发展了相当长的时间,但它们仍然远远不够。在当前的工作中,我们将仅涉及一个特定的问题-消息代码的分析。

介绍


选择遗传密码(HA)作为分析对象。您可以在这里熟悉在信息安全领域使用民法典的一个很好的例子(显然不专业,因此不成功)

在编码理论中,可以区分两个重要的方向:信息源的编码和信道编码。它们中的第一个通常由发送方实现,其目的是消除消息冗余(例如摩尔斯电码),第二个目的是检测并消除消息中的错误。在出现校正码之前,通过在接收方的请求下重发消息的失真片段,解决了消除错误的问题。

在这里,我们注意到一个事实,即如果接收方的文本出现错误,则接收方无法正确解密该密码。密码不允许检测错误,甚至无法修复错误。由于这个原因,在通信系统的发送侧,消息密码用校正码编码,而在接收侧,接收到的消息中的解码器检测(如果有)并纠正错误。

之后,密码系统开始起作用,并且给合法接收者解密的消息。一般而言,这些是交换安全消息的网络的功能。

在这项工作中,我们将详细分析非常重要的遗传密码,该密码不是由人的头脑而是由自然本身(罕见的情况)创建的。

发现的故事和诺贝尔奖



我们问自己,在物种及其个体代表的生命中,自然界如何在生物体(细胞)的遗传和代谢水平上实施这种信息交换规定?

在第二次世界大战之前,科学界知道,在生物中,遗传特征的世代相传是通过相对简单的化学单位(基因)进行的,其中包括大量的信息,这些信息是维持和繁殖生命所必需的。

所有基因(不是蛋白质)都结合成链(染色体)并在脱氧核糖核酸(DNA)中形成。专家对于一切如何发生以及DNA本身的结构尚不清楚。

年轻的研究人员是物理学家Englishman F. Crick和美国生物学家J. Watson,于1953年(25.4)在《自然》杂志上发表了文章“脱氧核糖核酸的结构”。詹姆斯·沃森(James Watson)于1949年开始工作时,年仅23岁,弗朗西斯·克里克(Francis Crick)和莫里斯·威尔金斯(Maurice Wilkins)分别为33岁

结果发现,这些链本身通过核苷酸形成的横向“台阶”相连。

定义核苷酸是由糖,含氮碱(嘌呤或嘧啶)和磷酸组成的化合物。核苷酸是DNA和RNA的“基石”。


这种DNA螺旋是遗传密码的载体-遗传是动植物生物性状的遗传密码。这是关于脱氧核糖核酸分子的结构和性质的完全不同寻常的新工作。

通过与英国生物物理学家莫里斯·威尔金斯(Maurice Wilkins)的DNA晶体结构的X射线衍射图进行比较,证实了年轻作者的DNA模型。后来,人们发现了一个遗传密码,其中包含并传递有关蛋白质结构和组成合成的信息,蛋白质是构成生命周期的生物体每个细胞的主要成分。

定义细胞周期是相对休息时间与细胞分裂时间的正确交替。


同年,这些作者随后发表了另一篇文章,描述了在活细胞分裂中通过基质合成复制DNA的可能机制。 DNA的双螺旋被比喻为“闪电锁”。

螺旋的每条线在“解开锁扣”并稀释线后成为合成基质,并根据互补原理用来自细胞质的第二条材料线完成。它还说,某些碱基序列(密码子,三胞胎)是包含遗传信息的密码。

将代码数学化的想法最初是由G.Gamov在1954年的一篇文章中表达的,它是将单词从四个字母的字母(系统)转换成二十个字母的单词的问题。他提出了将生命现象编码的问题,不是将其编码为生化问题,而是组合数学问题。沃森(D. Watson)的书《生命的脉络》(The Thread of Life)中很好地描述了这项工作的作者所做的长期持久努力。

1962年,沃森(Watson),克里克(Crick)和威尔金斯(Wilkins)获得了诺贝尔生理学或医学奖,“因为其在核酸分子结构领域的发现并确定了它们在生物物质信息传递中的作用”。

他们了解有关以下事实的信息:

  1. 1866年,格雷戈尔·孟德尔(Gregor Mendel)制定了规定,即后来称为基因的“元素”决定了物种个体物理特性的继承。
  2. , , () , , .
  3. 1869 . , . . () (). . 4- ( ): (), (), (G), (); (), (U) , (G), (), ( ) .
  4. , , – , .
  5. 1950 . , 4- .
  6. , , .
  7. , 20- , (), .
  8. 1944 « ? ». : « - , , ?».
  9. 1954 , () 4- 20- , , .

研究人员不得不采取下一步,并且采取了措施。

假设和假设不乏,但有人必须验证其真实性。
重叠代码(一个核苷酸字母是一个以上密码子的一部分):Gamov及其同事提出的三角形,主要和次要字母;
非重叠代码:Gamow和Ichas的组合,Scream,Griffith和Orgel的“无逗号代码”。在组合代码中,氨基酸(20)由4个核苷酸的三联体编码,但它们的顺序并不重要,而仅是它们的组成:三联体TTA,TAT,ATT在蛋白质中编码相同的氨基酸。

无逗号的代码说明了如何选择“阅读框”。这种沿着DNA链的“滑动窗口”(字母紧随其后),一个接一个地没有单词的分隔符(逗号),表明这些单词有所不同。根据F.Crick的模型,进行了一个假设:将所有的三胞胎分为有意义的三胞胎,即对应于特定的氨基酸,并且没有意义。

如果只有有意义的三胞胎形成DNA,那么在另一个“阅读框架”中,这种三胞胎将变得毫无意义。该代码的作者表明,可以选择满足这些要求的三胞胎,正好有20个三胞胎。当然,作者对其正确性并不完全有信心。

的确,在1960年之后,有证据表明,克里克认为这些密码子是无意义的,在体外进行了蛋白质合成,到1965年,所有64个三联体密码子的含义得以确立。还证明许多氨基酸由两个,三个,四个甚至六个三联体编码,即存在一定的冗余性,其目的尚待确定。

生命的遗传密码。继承的信息


. – , ( , G, C, T), , . ( ) – . . .


要编码20种典型氨基酸中的每一种,可以进一步构建几乎所有蛋白质并提供最终终止信号,一组称为三重态(密码子)的三个核苷酸(字母)就足够了。密码子序列在染色体链中形成一个基因,并确定该基因编码的蛋白质的多肽链中的氨基酸序列。有一个概念是“一个基因-一种酶”。

信息的经典表示形式(即记录的线性度)是用某种自然语言(EY)对该词进行的广义意义上的文本(语音,字母,书籍,图像,电影,音乐等)。该语言包括广泛的词汇(词汇),如果除口头语言之外还具有书面语言,则该字母带有语法。

为了长时间保存信息并传输其副本,需要一个牢固且受良好保护的内存和写入系统。生物的遗传信息由大自然的EY用很长的文字书写,并带有一定的“分子”字母,这些词以染色体的形式存储在生物的所有细胞核中。

F. Crick(1958)以分子生物学中心教条的形式制定了转移记录在其天然载体分子上的信息的过程和方法。三个主要过程可控制所有其他细胞功能过程以及整个生物的生命。

这些过程是:复制转录翻译此外,将更详细地讨论它们。生物体中的信息仅从核酸(DNA→RNA→蛋白质)到蛋白质的一个方向传递;不存在反向传递。DNA→蛋白质,RNA→RNA,RNA→DNA的特殊情况是可能的。

沿分子链读取信息仅允许向前一个方向。使用术语“阅读框”。

定义读框(开放)是能够合成蛋白质的一系列非重叠密码子,其起始密码子开始,终止密码子结束。该帧由广播开始的第一个三元组确定。


要开始广播,仅起始密码是不够的,您还需要一个起始密码子(共有三个:AUG,GUG,UUG)。读取后,通过依次读取核糖体rRNA的密码子并通过核糖体将氨基酸彼此连接直到到达终止密码子来进行翻译。

在翻译过程中,总是从一些起始起始符号(AUG)“读取”密码子,并且不重叠。在三联体开始之后,在三联体开始之后的读数到达蛋白质多肽链合成完成的终止密码子。

将这些事实汇总在传输遗传信息的方法表中。

表1-分子生物学的中心教条


关于生物遗传学及其理解的文献研究历史悠久,发现,成就,妄想和失望都丰富。对于自然科学和每个人来说,自然界文本理解(认知)历史上的事件清单都是毫无疑问的。

文本中的单词很长,但是写成“ EYA nature”的字母只包含四个字母-这些是分子碱基:在RNA中是A(腺嘌呤),C(胞嘧啶),G(鸟嘌呤),U(尿嘧啶)(在DNA中是尿嘧啶被替换了)在T(胸腺嘧啶)上。野生动物的语言是分子的语言。

生物学家已经确定,遗传文本的每个单词都是由一个聚合物DNA分子(脱氧核糖核酸,由医师I.F. Misher于1868年发现)形成的,该分子由4个碱基(核苷酸-从核到核)组成。

碱基以成对的方式彼此键接(连接),A←→T,T←→A,G←→C,C←→G带有特殊的氢键,这些氢键实现了互补原理(complementarity)。这些事实是由不同科学家和许多科学方法(物理学,化学,生物学,细胞学,遗传学等)在不同的时间建立的。认识这位新泽西州的方式上的困难不断遇到。

DNA分子没有结晶,但是在可能的情况下,建立DNA结构的任务减少到解决X射线衍射分析的反问题(通过X射线在屏幕上产生的晶体的衍射图进行傅立叶变换)。

J.Watson和Francis Crick在1953年计算并手工组装的模型类似于LEGO儿童游戏,其中的元素是分子基础,并且非常精确地保持了原子间距离和枢轴角,染色体结构得到了大规模复制。

该模型实际上证实了理论家的各种假设,并通过实践实验和晶体DNA的X射线衍射分析的结果令人信服地证明了不存在差异。

DNA的化学结构和模型的数值特征的主要详细数据由Rosalinda Franklin和M. Wilkins于1953年初在X射线分析实验室获得。 Janusz Leon Wisniewski的小说“网络上的孤独”描述了科学家之间的冲突。

DNA的视觉结构及其定量特性的存在推动了遗传学和所有生物科学的发展,2000年提出了人类基因组计划的想法。沃森成为该计划的第一位负责人,人类智人的染色体组在该计划中得到了完全解密。第一条染色体的完整遗传图谱已于2006年完成。该图谱包含3141个基因和991个假基因。

从数学的角度来看,字母表的四个元素可以归因于有限扩展Galois场GF(2 2)=0,1,α,β)的四个元素,以不可约多项式p(x)= x 2 + x + 1为模进行运算。则α+β= 1,α∙β= 1和场元件与字母的映射的形式为


,并计算所述附加(互补的)核苷酸根据规则¬→X + 1,从那里Ť→A + 1,C→G + 1

在结构上,DNA模型代表成对连接的核苷酸的2支等距离的聚合物链(由绳梯的原理)并扭曲成右旋双螺旋。在下面的文字中,垂直成对的字母对应于“阶梯”的步骤:

T A GGTTCG T ...
ATCCAAGCA ...


两条链重复字母的顺序,但是一个链的开头与另一链的末尾相对。 DNA分子中的信息被高度冗余地记录,在读取和复制信息时(复制:DNA→DNA),当然提供了高度的可靠性。原词附加了一个词,但附加了代码。

所有染色体在其组成中均包含基因,并且以非常小的体积(在细胞核中)包含在每个细胞中,并且又短又长。 DNA链之间的距离为2 nm,“台阶”之间的距离为0.31 nm,每十对“螺旋”旋转一圈。延伸成一条链的所有DNA的总长度达到2 m。人类遗传信息记录在23条染色体上。染色体的长度约为10 9核苷酸,并且核的直径小于一微米。因此,细胞中的DNA被压缩。

定义基因(希腊语。γενοζ-属)。生命有机体遗传的结构和功能单位。基因(更准确地说是等位基因)决定了繁殖过程中从父母传给后代的生物的遗传特征。


用DNA的话来说,可以分离和考虑携带有关一个蛋白质分子或一个RNA分子结构的完整信息的单个子部分(基因)。另外,基因的特征在于调节序列(启动子)。

启动子既可以靠近编码蛋白质的开放阅读框,也可以位于RNA序列的起始位置,也可以位于数百万个碱基对(核苷酸)之间,例如,在存在增强子,绝缘子和抑制剂的情况下。

每个基因都经过设计并负责产生人体生命所必需的特定蛋白质。基因型的概念表示配子(生殖细胞)和受精卵(体细胞)的遗传结构,这与描述未继承的获得性状的表型相反。

区块码


代码是一个多值概念。首先,代码可以称为形成代码本身的代码字的代码集。这些字是解码器在发送消息时在接收方识别的,而在发送方,编码器将其形成。

当生成代码字,一个有限的唯一映射有序集属于某个有限字母表到另一个字符,不一定有序的,通常更广泛的字符集用于编码传输,存储或信息变换用于我们。

列出所考虑的遗传密码的性质:

  • . . in Vitro ( ). () () .
  • . , .
  • . . ( ) – , , .

    . . 4- , , 20 , , ( ) .

    , (), 4; 2- (), 42 =16 ; () 43 = 64 > 20 . .
  • . . , -, , - . .

    . 64 1965 . , . , (). .

    2 —


    20 61 , . , . AUG – .
    . . AGC, GCU, CUA,… , . , . .
  • . - .

    , . ( ) ( ) .
  • . - , . : AUG ( ) , – .
  • . . . 1961 . .
  • – ;
  • – ( ) .


考虑两个分别包含|的离散集XnX |和| n |元素和映射φn→X。当用字母X中的单词表示集合的任意映射时,我们得到X 个n个单词的集合,从可用的q = | X |中每个字符的长度n个字符它们构成文本消息的字母。所有单词X n按字典顺序排列在一般列表中很方便。

在这部分工作中,我们的目标是生成一个代码,该代码提供对所传输数据的编码(转换)为便于在空间和时间上传输以及将一种语言广播(翻译)成消息接收者可以理解的另一种形式。

生成代码涉及选择字母,确定规则性,以及在选择常规代码时确定代码字的长度,确定代码字的数量,确定每个单词的逐字母组成。

表3-遗传密码由64个编码词组成,每个词由3个字母组成。


表4-RNA三联体编码序列的反值


代码的其他属性(例如,代码不应使用逗号)由对命名代码参数的更严格要求决定。无逗号的代码必须包含最长句点的单词。这些要求集中在编解码器后续合成的便利性上。与代码合成的这些规定紧密相关的是信息编码和解码。

代码分析



当代码已经存在并被使用时,代码分析的任务听起来完全不同,但是对其本身知之甚少。编码后的消息可供查看和研究,但是它们是如此多样且数量众多,以至于即使进行了非常广泛的分析,它们的创建原理仍然不可见。

实际上,编码系统本身也可用于观察和研究,但是其构造和功能的复杂程度不允许获得完整的定性和可靠描述。

信息(数据)是一条消息,即字母表中的一个字符链,从某个起始位置可以将其划分为长度为n个字符的段(块),每个这样的段都是一个代码字。这种情况下的代码是块。

在消息通道的接收方,接收者应该能够正确地将消息字符的连续字符串分成单独的单词。不希望使用字定界符(逗号),因为它需要资源。

同步。没有同步,消息的正确翻译是不可能的。这意味着对生成的代码的要求之一-必须对代码进行设计,以便通过代码本身和信息接收设备的方式(属性)唯一地提供同步。

定义建立包含代码字起始(初始)字符的位置的过程称为同步。
如果字母使用特殊的单词分隔符(例如,逗号),则可以轻松解决同步任务。在分隔符之后立即设置下一个代码字的阅读框。


这样的分离器是方便的,但是由于几个原因是不希望的。

  • 首先,代码必须是这样的:在消息到达时,它的形式与离开时完全相同(确保完整性);
  • 其次,编码,解码时间和传输持续时间应尽可能短,因为这样可以减少扭曲环境对消息文本的影响的可能性;
  • 第三,理想的是具有少量的消息载体,因为它需要较少的存储,保护和其他资源。


为了更好地区分代码字,应在可能的单词的完整列表中将它们彼此隔开一定的距离,即 由于向量空间的向量是分量,因此符号含义的组成有所不同。

因此,码字可并不是所有的而不是集中的任何话X ñ,但只有其中的一个子集d є X ñ选择代码字的符号组成代表其形成的主要任务,因为必须确保满足代码规定要求的代码字的组成。因此,我们将进一步考虑不带逗号的代码。

. , . = (1, 2, …, n) = (1, 2, …, n). || = (1, 2, …, n, 1, 2, …, n). n – 1 n n . .


. (2, …, n, 1), (3, …, n, 1, 2)…( n, 1,…, n-2, n-1), .

如果对于任何一对代码字,所有串联重叠的部分都不是代码字,则信息传输通道的接收方(解码器)的机制可以设置唯一的起始位置。如果列表D的解码器具有所有代码字,并且有可能将它们与从接收到的消息中读取的n个字符进行匹配,则这是可能的。

我们展示了如何做到这一点。让一个符号被选择并固定在接收到的字符序列中。解码器从固定的字符中计数了n个字符后,将结果与代码列表中的单词进行比较。如果与代码列表中的单词之一匹配,则建立同步。固定符号及其位置正在开始。

如果与代码列表中的任何单词都不匹配,即命中重叠的单词,这意味着起始位置位于固定位置的左侧。
我们从固定的位置移到左侧一个位置,并重复上一步的操作,直到一步到与其中一个代码字的匹配为止。该过程必须在正确的起始位置成功完成,即,平均建立n / 2个步数的同步。
. () D є n n , , єD .


我们已经确定,这样的代码可确保长代码字链中的正确同步,而在它们之间没有分隔符。从设置什么话X n被包含在子集中d є X ň?如果集合X n的基数除以整数,则基数D可以是这样的除数之一(拉格朗日群定理),并且该代码称为不带逗号组块代码

, , D. , D  n (  n D), . , D.


让我们继续讨论生成的代码中的单词数问题。

代码的功能不带逗号。我们将在代码D中找到最大数量的单词,|表示D | =W nq)。不可能获得确切的含义,但是可以使用单词周期的概念来获得单词数量的较高估计。表示由Ť ķ x中的长度的字的循环移位Ñ通过ķ步骤,ķ< Ñ

. d ( ) k, k = d ≤ n, d | n. d = n (). .


, = (1, 2, 3, 1, 2, 3 ) d < n. || . || = (1, 2, 3 ; 1, 2, 3 , 1, 2, 3 ; 1, 2, 3). , (;) , . , n.


n(q) q . D Wn(q) ≤ n(q)/n .






因此,对于示例1的源数据,可以从一组任意的64个单词(长度为3个字符)中创建一个包含20个单词并提供同步的代码。这段代码并非没有缺陷。如果在单个字符中的一个单词中引入了错误,则代码将不会同步。换句话说,代码对于错误是不稳定的。

给出的数值示例可用于说明和解释生物的遗传密码,该密码是自然界在漫长的进化道路上创造的,并在1966年由现代科学完全解密。确定遗传密码没有重叠,并且揭示了每个密码子的含义(解释)。
最终表如下(图2)。

从表中可以看出,代码已退化。这意味着代码中存在同义词,例如GUU = GUC = Val,CGG = AGA = Arg等。三个密码子UAA,UAG,UGA不会携带无意义的密码这些是终止密码子;它们中任何一个出现在一系列字符中都表示翻译(传输)结束。如果由于错误将语义密码子的字母更改为终止密码子,则生物死亡。

这种变化是可能的,称为变异。
定义突变是遗传物质中相对稳定的变化。

每个染色体都包含基因x1,x2,...,xn,这些基因形成了人体的复杂特征X。在繁殖过程中,通过父系和母系生殖细胞融合获得的细胞中会形成一对染色体:一个染色体是从父亲那里获得的,另一条染色体是从母亲那里获得的(二倍体染色体)。

在同源染色体中,所有基因的功能均相符,但可能有几个核苷酸不同。这种差异通常是突变的结果,突变可能是由化学,辐射,辐射,温度,电离辐射引起的。

遗传性疾病是由相似的突变引起的,这些突变固定在父母一方生殖细胞的染色体组中。编码血红蛋白的人类基因的已知示例。当用字母A替换字母T,另一种形式的血红蛋白出现在基因的一个位置。这表现为一种称为镰刀性贫血的疾病。 当两个同源染色体的特征值一致时,该个体被称为该基因的纯合子。在其他情况下,会发生杂合性。纯合性的特征是a)型的二倍体对,b)型的对具有杂合性(图3)。图3-纯合子和杂合子 的二倍体对代替一个二倍体,形成了四个同源染色体A,A,a,a,






它们均匀分布在四个配子之间。每个配子还接收对应于复杂性状的染色体B,B,b,b之一。染色体的这种分布独立于四个配子之间以及不同字符之间。这些事实由孟德尔(Mendel)建立,并于1865年发表。

遗传密码最令人印象深刻的特点是它的多功能性。给定的方案(图1)可以成功地用于解码动植物的RNA。 1979年,结果出现在线粒体遗传密码上,该密码不同于表中某些密码子的值以及其他密码子识别规则。

翻译是由核糖体-细胞的特殊器官进行的。同步(设置阅读框)使用前缀AGGAGGU进行,该前缀称为Shine-Dolgarno序列。嘌呤序列以单数形式出现在单词中,其变形的可能性很小。但是,如果确实发生扭曲,那么身体将陷入灾难。

图1-代码字与氨基酸的对应关系图2 – DNA,mRNA和蛋白质螺旋


图2显示了蛋白质分子中的氨基酸序列如何被DNA分子中的密码子序列编码。在此,基质mRNA是中间分子。它的链根据“拉链”原理发散,其中锁的作用是通过氢键使分子断裂的酶发挥的。

在细胞中,遗传密码通过三个矩阵过程执行:复制(发生在细胞核中),转录翻译

转录(DNA→mRNA的逐条记录)是真核细胞中的一个生物过程,发生在细胞核中(由细胞膜与核膜分开),是i-RNA分子在相应DNA片段中的合成。 DNA核苷酸序列被“重写”为相同的RNA序列。

翻译(RNA→蛋白质的阅读和翻译)原核细胞中的生物过程与转录过程相结合,发生在细胞质中,在核糖体上; mRNA核苷酸的序列从细胞核中转运出来并翻译成氨基酸序列(在mRNA基质上多肽链的合成):这一阶段随着转运RNA(tRNA)和相应酶的参与而进行。
因此,翻译是核糖体根据基质mRNA中记录的信息合成的蛋白质。为了获得表示蛋白质序列末端的20个氨基酸以及一个终止信号,三个连续的核苷酸(称为三联体)就足够了。

活生物体按物种分布在动植物之间。
. – , . , , .

细胞分裂有两种类型:一种用于形成体细胞(体细胞),另一种用于形成生殖细胞(配子)。生物体的类型取决于未改变(恒定)的生物体细胞中染色体的存在,数量和组成。



由于有丝分裂,体细胞的形成和生长可确保身体的正常生长和发育。在有丝分裂中,位于细胞核中的所有染色体在细胞分裂(DNA复制)开始之前加倍,并且在两个子细胞之间均等分布。每个体细胞2n2c染色体的集合完全相同。有丝分裂在细胞中维持恒定的二倍体染色体数。

减数分裂的另一个过程是配子的形成,这对于生物体的延续是必需的。在减数分裂中,每个细胞分裂两次,染色体数目增加一倍。减数分裂导致带有一组n2c的单倍体配子形成二倍体细胞。随着随后的受精,配子形成具有二倍体核型(nc + nc = 2n2c)的新一代生物

在所有有性繁殖的物种中都实现了这种机制。减数分裂可确保染色体组(染色体核型)的恒定性-遗传性,并创建父本和母本基因的新组合,从而实现基因型变异。

拟议的工作开辟了使用遗传密码解决信息保护任务的可能性。只有通过研究者的努力,才能正确理解自然现象及其用途,而研究人员并不会因为对周围自然及其表现形式的深刻了解而陷入困境。

All Articles