Analyse du code génétique II


Illustration melmagazine.com ( Source )

Actuellement, les réseaux publics dont les canaux ne sont pas protégés contre l'intrus sont largement utilisés pour l'échange d'informations. Le mode d'organisation de la protection peut être luici.

Dans le message, l'expéditeur protège l'intégrité, la confidentialité, la disponibilité du message, pour lesquelles les résultats des théories de la codologie, de la cryptologie, de la stéganologie sont utilisés .

Dans le présent travail, nous continuons à ne considérer qu'une seule question particulière - l'analyse des codes de message.

Il existe un regain d'intérêt pour l'étude et l'utilisation du code génétique (HA) dans le cadre du développement de la nanotechnologie. Mais les limites du modèle GK sont loin d'être satisfaisantes pour tous les chercheurs, et ceux qui sont satisfaits sont toujours insatisfaits de certains détails.

Le fait est que le modèle GC existant ne permet pas d'expliquer de nombreux phénomènes et faits établis expérimentalement. Cependant, ce n'est pas surprenant, mais très probablement naturel. La région est relativement nouvelle et assez complexe, et le temps a passé depuis sa découverte est relativement faible, le nombre de personnes qui y ont consacré leur temps est également très limité. Les efforts des chercheurs individuels visent à améliorer le modèle GK. A cet effet, les propriétés des acides aminés protéinogéniques sont utilisées (voir tableau 1). La classification rationnelle moderne des acides aminés est basée sur la polarité des radicaux (groupes R), c'est-à-dire leur capacité à interagir avec l'eau à des valeurs de pH physiologiques (proches de pH = 7,0).

Tableau 1 - Propriétés des acides aminés protéinogéniques


Description génétique corrigée


La familiarité avec les descriptions du Code civil dans diverses sources laisse un sentiment de confusion dans les textes, les définitions et le raisonnement. Si, dans un organisme vivant, la science a établi et exploite un système de transfert d'informations, et c'est ainsi que la biologie moléculaire interprète les mérites des chercheurs pionniers, il serait bon d'établir une analogie de ce système avec des systèmes technologiques similaires pour la clarté de l'image.

Les lecteurs et les adeptes, apparemment, ne prennent pas la peine de penser au contenu des documents publiés par d'autres auteurs. Cela se reflète dans la manifestation de l'inertie de la pensée humaine et de l'influence de la pression sur les noms des autorités sur la conscience.

Il n'y a pas de description claire et transparente des concepts individuels ou du code lui-même. Nous donnons de brèves descriptions schématiques d'un tel système dans la technologie et dans un organisme vivant.

. ( ), ( ) .
. , : . ( ) , , . , . . . () .

Ci-dessous, dans le texte, quelques schémas simplifiés de transmission d'informations dans les technologies utilisant un système de codage et dans les organismes vivants utilisant un système de codage créé par la nature elle-même. En même temps, tous les éléments obligatoires des systèmes et le processus de leur fonctionnement sont nommés.

Dans le schéma général d'échange d'informations des abonnés dans un système de communication utilisant des codes de bloc, les concepts suivants et les éléments correspondants d'un système de communication peuvent être distingués:

  • Source des messages (informations) - textes, documents d'archives, images audio, vidéo, etc.
  • L'expéditeur du message dans un alphabet;
  • Message - beaucoup de mots d'information numérisés;
  • Encodeur - un dispositif ou un programme informatique qui met en œuvre la conversion d'un message d'expéditeur en mots de code;
  • , ;
  • , ;
  • , , , ;
  • , ;
  • () .

Certains éléments du système peuvent être combinés en un seul avec les mêmes fonctions ou des fonctions modifiées. L'alphabet peut être simple (binaire) sur les émission et de réception côtés, la source et l' expéditeur du message ainsi que le récepteur et l' utilisateur peut être une personne, les fonctions de décodeur peuvent être limitées à la détection des erreurs sans les corriger, mais avec la suppression de mots de code déformées, etc.

Quel devrait être à partir de la description existante du code génétique et du fonctionnement d'un organisme vivant ?

Nous considérons une cellule dans le noyau dont est un ensemble de chromosomes représentés par des molécules d'ADN enregistrées sous la forme d'une séquence de gènes séparés par des «virgules». Chaque gène est formé de codons à 3 lettres (triplets) dans un alphabet à 4 lettres.

Il n'y a pas de séparateurs (virgules) entre les codons (triplets) au sein du gène; les triplets (codons, mots) sont écrits dans un flux continu et non ramifié. Les chromosomes en général et les gènes individuels ont une charge d'information appelée informations héréditaires, qui est transmise aux cellules d'une nouvelle génération à la suite du processus de division des cellules parentales.

Le remplissage sémantique et informatif des gènes hérités des parents est les attributs physiques d'un organisme (individu) d'un certain type non enregistrés explicitement. La transmission des symptômes (par exemple, la couleur des cheveux) se fait en plusieurs étapes: triplet-acide aminé-enzyme-protéine-organe ou tissu corporel. Ces signes ne sont pas enregistrés explicitement, mais indirectement, à travers les protéines synthétisées. Les protéines, acides aminés, triplets impliqués dans la synthèse sont différents pour les blondes et les brunes. Les protéines pour les blondes (parents blonds) seront utilisées dans différents tissus et organes, donnant aux descendants l'apparence de traits hérités et la couleur des cheveux.

On suppose que ces ensembles d'enzymes qui sont synthétisés dans la cellule et assurent la formation de toute la variété de protéines nécessaires à la croissance et au développement de l'organisme, garantissent l'émergence du génotype, qui est déterminé par l'hérédité. La liste complète des codons (triplets) est limitée à 4 3 = 64, mais la composition et la séquence de ces codons formant le gène sont très importantes. Chaque acide aminé (enzyme, protéine) nécessite un ensemble distinct de codons ou un gène pour sa synthèse.

Toutes les protéines d'un organisme particulier sont uniques. Une protéine étrangère qui pénètre dans le corps ou une protéine déformée de son corps, prise comme un étranger, est rejetée par le corps. Ceci est le système immunitaire. C'est ce système qui vérifie l'exactitude du codage des protéines à l'aide du génome. En d'autres termes, le rôle des mots de code est joué par des protéines synthétisées dans le corps et le système immunitaire agit comme un décodeur.

Le destinataire d'un message traité par un décodeur doit être considéré comme des organes et des tissus d'un organisme vivant qui utilisent des protéines spécifiques pour la croissance et l'activité vitale. L'utilisateur du message est l'organisme lui-même.

On peut supposer que le chromosome et les gènes d'origine provenaient à l'origine du trait requis, formé par la liste des protéines, et par les protéines des acides aminés qui formaient la liste de protéines souhaitée, et, enfin, des codons synthétisant ces acides aminés. Ainsi, les informations sur le caractère d'un organisme pourraient être initialement enregistrées dans les gènes et les chromosomes, qui y sont stockés, transmis lors de la division cellulaire aux nouvelles générations de cellules et d'organismes. Un trait souhaitable pour l'organisme a été fixé et conservé pendant de nombreuses générations. Bien que ce qui a été dit ici contredit le dogme central de la biologie moléculaire, la chaîne répertoriée peut être tracée mentalement dans les deux sens.

Alors, à quoi en venons-nous en comparant deux systèmes de transfert d'informations (en direct et techniques):

  • La source des messages (informations) est la cellule et en elle la source et le vecteur d'ADN.
  • , – , ;
  • – () , ;
  • , , , , « » ;
  • , — ;
  • , — , , ;
  • – , ;
  • , , – ;
  • () – , .

( )


. , « , , » . .

« , » ..
. – , . , .

Distinguer l'immunité cellulaire, ainsi que les produits protéiques de leur propre activité (immunité humorale). Le système agit comme un tout. Il comprend environ 10 12 lymphocytes et 10 20 molécules d'immunoglobuline, chargés d'identifier les antigènes.

Les antigènes (Ag) sont des molécules et des cellules d'animaux de la même espèce ( allogéniques ), d'une autre espèce ( exogènes ), ainsi qu'artificiels ou synthétiques. Les antigènes allogéniques produits par l'organisme lui-même, mais ensuite modifiés, sont appelés autologues .

Après identification de l'antigène, le système immunitaire le neutralise et l'élimine à l'aide de cellules T spéciales ou à l'aide d' anticorps(At), qui sont produits par les cellules B. Les facteurs humoraux appelés complément et le système properdin remplissent les mêmes fonctions . La phagocytose et la destruction intracellulaire de l'Ag sont réalisées par les macrophages .

Tous ces composants du système immunitaire forment le réseau immunologique du corps.
Un tel réseau présente parfois une hypersensibilité, et parfois une immuno-tolérance ou une immunodéficience, ce qui constitue une violation de la norme.

Dans le premier cas, une réponse immunitaire excessive se produit, et dans le second, elle se manifeste par l'absence de réponse immunitaire sélective. Le cas le plus difficile est celui où les antigènes allogéniques se transforment en autologues et que le système immunitaire de l'organisme commence à agir contre lui-même. Ceci termine la cartographie des systèmes.

Une autre approche du développement d'un GC consiste à représenter ses éléments comme des structures algébriques (champ de Galois) et spatiales ( voir articles ). Selon les descriptions disponibles du Code civil, la liste de ses mots contient 64 triplets, chacun d'eux peut être comparé au sommet d'un seul cube.

La figure 2 montre un tel cube à six dimensions unique avec 2 6 = 64 sommets selon Yablonsky.

Code génétique (suite)

Dans notre monde tridimensionnel (n = 3), dans la nature animée et inanimée, il existe des phénomènes étonnants appelés auto-organisation et auto-assemblage d'éléments, par exemple, dans la nature inanimée, la nucléation et la croissance des cristaux. Dans ce phénomène, l'effet des lois cristallographiques de la nature se manifeste. Au fil du temps, l'homme a découvert ces lois, les a expliquées et s'est mis au service. En 1848, Auguste Brave a déduit géométriquement 14 types de réseaux spatiaux (translationnels) formés par des cellules identiques de forme.

En 1890, E. S. Fedorov a établi l'existence de 17 groupes cristallographiques algébriques planaires et 230 spatiaux. Cette découverte du scientifique détermine notamment les possibilités et les limites de la nature pour construire des cristaux. La propriété d'être un cristal pour les substances est assez rare. La plupart des substances, même en solution, préfèrent rester (amorphes) sous forme désordonnée par les émulsions, les suspensions ou les colloïdes et ne cristallisent pas.

Du point de vue des mathématiques, les réseaux cristallographiques réalisent des types de symétries simples et complexes. Les peintures d'Escher en illustrent beaucoup. Les cristaux dans les espaces de deux et trois dimensions n'ont pas de symétrie de rotation à 5 rayons - c'est la limitation cristallographique de notre monde avec la géométrie tridimensionnelle. Dans un monde à 4 dimensions, cette restriction est supprimée. Parmi la diversité existante des mathématiques, une opportunité de mettre en évidence et une classe plus étroite de symétries - des polygones réguliers sur un plan et des polyèdres réguliers dans un espace à n dimensions, Rosenfeld B. V. Karasev .

Tableau 2 - Polyèdres réguliers et leurs caractéristiques (cas n = 3)

p * - le nombre de sommets dans la face; q * est le nombre de faces adjacentes au sommet.

Tableau 3 - Polyèdres réguliers et leurs caractéristiques (cas n = 4)


À chaque sommet du polyèdre, q des p-gons identiques convergent.
Les valeurs (p, q, r) pour un 4-polyèdre régulier sont déterminées par des solutions entières de l'inégalité sin (π / p) · sin (π / r)> cos (π / q). Il n'y a que 6 solutions entières de ce type, toutes sont répertoriées dans le tableau 3. Les

mathématiques, comme d'habitude, offrent beaucoup plus de possibilités que la nature ou l'homme ne peut le réaliser. Bien qu'il soit possible que notre connaissance de la nature soit très limitée. Un cas de comportement réflexif héréditaire des abeilles est connu lorsqu'elles construisent des stockages hexogonaux pour leurs réserves de miel.

De l'analyse de l'AH et en tenant compte des propriétés supplémentaires des éléments de code du modèle spatial du placement de ses éléments, il s'ensuit que ces éléments sont disposés en tenant compte des différentes symétries spatiales des molécules d'acides aminés.

La façon dont le dodécaèdre à 20 sommets est connecté (mathématiquement) à la génétique des organismes vivants n'est pas complètement claire. Mais les faces à 5 faces du dodécaèdre et le résultat des limitations cristallographiques de la nature se manifestent en l'absence de symétrie de rotation des cinq acides aminés aux sommets des faces.

Parmi les 5 polyèdres corrects possibles pour la modélisation de la nature, pas le plus simple n'a été sélectionné, mais il répond aux exigences quantitatives des enzymes cellulaires synthétisées (20). Tant de pics que le dodécaèdre a. Les 20 acides aminés existants (enzymes cellulaires) peuvent être mis en correspondance avec les sommets du dodécaèdre, dans un ordre spécifique. En effet, il était possible de placer 20 acides aminés dans l'espace (n = 3) pour que leurs coordonnées correspondent aux sommets du dodécaèdre, et certaines propriétés du polyèdre refléteraient les dépendances symétriques des acides aminés.



La figure montre I - le plan de l'antisymétrie inverse; II - l'avion divisant les "antipodes". L'intersection des plans est l'un des axes de rotation du dodécaèdre.

Les lettres A et B avec des indices (supérieur et inférieur) et des signes (±) désignent des acides aminés qui ont certaines propriétés (tableau 1). Ainsi, sur le côté gauche de la figure 1, tous les éléments au-dessus du plan horizontal passant par le centre du polyèdre sont marqués avec , et en dessous de l'horizontale avec ⊖, qui caractérisent la polarité des acides aminés.

En 1968, Rumer Yu. B. a proposé et fourni une description matricielle et graphique des conformations (tableau 4).

Tableau 4- Conformations (64) d'un graphique à 4 liens et leurs descriptions (selon Rumer) La


disposition des éléments et des graphiques dans le tableau est telle que les éléments adjacents d'un bloc diffèrent les uns des autres par une seule valeur (1 bit d'information). Ainsi, il ressemble à un code Gray.

Modèle de codage topologique des polymères à chaîne. L'auteur identifie trois composantes du modèle: le code topologique; algorithme de codage en chaîne; un système d'opérateurs physiques recréant une structure codée. Le modèle utilise les transformées de Rumer [7].

Par exemple, les triplets AAC, AAU - Asn; AAG, AAA - Lys à gauche sont convertis à droite en remplaçant les bases C - A; G - U.

Tableau 5 - Transformation de la matrice de conformations en un triplet HA (selon Karasev V. Luchinin V.)

Dans la matrice [3 × 3] du graphique, une arête connectée relie les sommets avec les nombres i et i-4 et correspond à une valeur de 1.

Selon les descriptions GC disponibles, la liste de ses codons contient 64 triplets, chacun pouvant être associé à un sommet d'un cube unitaire. La figure 2 montre un seul cube à six dimensions avec 2 6 = 64 sommets.

En revanche, un champ de Galois élargi GF (2 6 ) formé de 64 éléments et un seul hypercube (n = 6) avec le même nombre de sommets peuvent être associés à 64 triplets .



Figure 2 - Un seul cube ([11] selon Yablonsky SV) avec des sommets marqués ([4,7] selon Karasev, Rumer) des éléments GK.

Puisque le nombre de sommets et de triplets coïncide, nous pouvons établir une relation un à un entre eux - une bijection, qui est représentable par une permutation d'éléments. Les acides aminés de HA sont attribués à chaque sommet d'un seul cube un par un.


Figure 3 - Parties du

code topologique de l'hypercube . Un fragment de 4 unités d'un polymère de chaîne (4a), qui est transformé en un graphique de chaîne (4b), est sélectionné comme objet initial. Bords du graphe (kc) - les liaisons polymères sont incidentes aux sommets (i, i-1, i-2, ..., i-4) des points d'extrémité des liens.

Les sommets du graphe x1, x2, ..., x6 sont des variables prenant des valeurs 0 ou 1.


Figure 4 - Fragment à quatre unités de la chaîne polymère (a), son graphe (b) et la matrice du graphe (c)

Tableaux du champ de Galois. Il s'agit de la table d'addition et de la table de multiplication de champs, cela inclut également la table des éléments de champ de Galois, qui montre diverses représentations des éléments et certaines caractéristiques des éléments;

La colonne de gauche de la table des éléments est le degré de l'élément primitif (000010) du champ. Ces degrés parcourent tous les éléments du domaine. Les colonnes suivantes: représentation des éléments de champ par polynôme, vecteur binaire, nombre décimal, ordre des éléments de champ, vecteur inverse multiplicatif, degré de polynôme inverse, inverse en représentation décimale, poids des mots de code.

Stéganographie et protection de l'information [1, 2, 12, 13, 14]


Il est connu que l'ADN est formé par une séquence de gènes, parmi lesquels on appelle les exons et les introns. Les exons codent pour une protéine, déclenchent sa synthèse et les introns ne codent rien. Ils étaient même appelés gènes «silencieux». Des enzymes spéciales éliminent les introns de l'ADN avant le début de la synthèse des protéines.

Par exemple, chez une personne du génome, près de quatre-vingt-dix pour cent des introns. Pour les applications stéganographiques, ce sont les introns qui sont intéressants. De plus, la propriété de dégénérescence de HA permet non seulement la génération de récipients d'ADN artificiels, mais aussi la modification de récipients naturels.

Les conteneurs d'ADN après avoir incorporé des messages doivent aller au destinataire du message. Cela peut se faire de plusieurs manières. Par exemple, introduire dans le génome de l'organisme auquel appartient le modèle de la molécule d'ADN utilisée. Les virus ordinaires nous montrent un mécanisme de distribution d'ADN efficace.
Définition . La stéganographie est la science des méthodes d'incorporation / récupération, de transmission (stockage) d'informations cachées, dans lesquelles un canal caché est organisé sur la base et dans un canal ouvert en utilisant les caractéristiques de la perception de l'information, et à cette fin, les techniques qui peuvent être utilisées:

  • dissimulation complète de l'existence d'un canal de communication caché,
  • créer des difficultés pour détecter, récupérer ou modifier les messages cachés transmis dans les messages de conteneur ouvert,
  • masquer les informations cachées dans le protocole.

Le concept général de la stéganographie est la création d'un canal caché pour transmettre des informations entre l'expéditeur (A) et le récepteur (B). Ainsi, dans un message, appelé conteneur ou message de couverture provenant d'un grand flux de messages dans les réseaux, qui est envoyé par l'abonné A ≠ Un abonné B ≠ B secret (caché de A et B ) est déposé (abonné intégré A) un autre volume de message plus petit ( environ le brevet peut être lu ici ).

Différentes conditions et possibilités pour les inégalités indiquées sont considérées. La première paire ou la deuxième paire peut être une seule personne, ou l'égalité est effectuée pour les deux paires d'abonnés, bien que ce dernier ne soit pas souhaitable.

Dans les années 50 du siècle dernier, Richard Feynman a effectué une justification théorique de la possibilité d'utiliser des molécules d'ADN pour organiser les calculs.
Définition . Un algorithme stéganographique est une paire de transformations mutuellement inversibles: le F direct: M × B × K → B et l'inverse F -1 : B × K → M, correspondant au triple (M - message, pB - conteneur vide, K - clé) conteneur de résultat et la paire (zB est le conteneur rempli, K est la clé) est le message initial M, et F (m, b, k) = b m, k ;
F -1 (b m, k , k) = m, où m ∊ M; b, b m, k ∊ B; k∊ K.

Le système stéganographique (GHS) est appelé système S = (M, B, K, F, F -1 ), formé par des ensembles de messages, conteneurs, clés et transformations les reliant.

La mise en œuvre (dissimulation) / récupération d'un message au moyen du SGH fait référence au résultat de la transformation stéganographique avant / arrière avec les valeurs correspondantes des arguments.
Définition . Le séquençage est la détermination de la séquence de nucléotides dans un fragment d'ADN.

La présence et le développement de la technologie informatique, des technologies microbiologiques ont permis de parler et d'utiliser pratiquement les éléments structurels des cellules vivantes (ADN, ARN, etc.) comme conteneurs stéganographiques [3,4]. Les propriétés de ces éléments de stocker d'énormes quantités d'informations et d'avoir des dimensions microscopiques attirent l'attention des spécialistes, malgré le fait que travailler avec eux nécessite une formation professionnelle élevée et l'utilisation d'équipements spécialisés coûteux.

Liste de la littérature utilisée:
1. .. . . — .: , 2003. 152 .
2. . . . . – .: -, 2002. – 272 .
3. . ., . . // . 2002. . 7. . 274 — 278.
4. .. / 23.03.2004, №470-2004.
5. . . . – .: , 1966. – 648 .
6. . . – .: ,1976. – 224.
7. . . // . 1968. . 183. .225-226
8. – . . – .: ,
9. . . : . – .: , 1999. – 352 .
10. . . -. . / . . . . . . .: , 1964. . 195 – 219.
11. . .– .: , 1979.–272 .
12. Bancroft F. C. Clelland C. DNA-based steganography. United States Patent №6.312.911. November 06,2001.US Patent & Trademark Office.
13. Bancroft F. C. Clelland C. DNA-based steganography. WO0068431. November 16,2000. World Intelltctual Property Organization.
14. Pfitzmann B. Information Hiding Terminologiy, Information Hiding //First International Workshoh. Vol. 1174 of Lecture Notes in Computer Science, Isaac Newton Institute, Cambrige, England, May 1996.- Berlin: Springer-Verlag/pp 347-350.

All Articles