Análisis del Código Genético II


Ilustración melmagazine.com ( Fuente )

Actualmente, las redes públicas con canales que no están protegidos del intruso son ampliamente utilizadas para el intercambio de información. Cómo se organiza la protección se puede leeraquí.

En el mensaje, el remitente protege la integridad, confidencialidad, disponibilidad del mensaje, para lo cual se utilizan los resultados de las teorías de codología, criptología, esteganología .

En el presente trabajo, seguimos considerando solo un tema en particular: el análisis de los códigos de mensajes.

Existe un gran interés en el estudio y el uso del código genético (HA) en relación con el desarrollo de la nanotecnología. Pero las limitaciones del modelo GK están lejos de ser satisfactorias para todos los investigadores, y aquellos que están satisfechos todavía están insatisfechos con ciertos detalles.

El hecho es que el modelo GC existente no permite explicar muchos fenómenos y hechos establecidos experimentalmente. Sin embargo, esto no es sorprendente, pero lo más probable es que sea natural. El área es relativamente nueva y bastante compleja, y el tiempo transcurrido desde su descubrimiento es relativamente pequeño, el número de personas que le han dedicado su tiempo también es muy limitado. Los esfuerzos de los investigadores individuales están destinados a mejorar el modelo GK. Para este propósito, se utilizan las propiedades de los aminoácidos proteinógenos (ver tabla 1). La clasificación racional moderna de los aminoácidos se basa en la polaridad de los radicales (grupos R), es decir, su capacidad de interactuar con el agua a valores fisiológicos de pH (cerca de pH = 7.0).

Tabla 1 - Propiedades de los aminoácidos proteinogénicos.


Descripción corregida genética


La familiaridad con las descripciones del Código Civil en una variedad de fuentes deja una sensación de confusión en los textos, definiciones y razonamiento. Si en un organismo vivo la ciencia ha establecido y opera un sistema de transferencia de información, y así es como la biología molecular interpreta los méritos de los investigadores pioneros, sería bueno establecer una analogía de este sistema con sistemas similares en tecnología para mayor claridad.

Los lectores y seguidores, aparentemente, no se molestan en pensar en el contenido del material publicado por otros autores. Esto se refleja en la manifestación de la inercia del pensamiento humano y la influencia de la presión sobre los nombres de las autoridades sobre la conciencia.

No hay una descripción clara y transparente de los conceptos individuales o del código en sí. Damos breves descripciones esquemáticas de dicho sistema en tecnología y en un organismo vivo.

. ( ), ( ) .
. , : . ( ) , , . , . . . () .

A continuación en el texto hay algunos esquemas simplificados para transmitir información en tecnología usando un sistema de codificación y en organismos vivos usando un sistema de codificación creado por la naturaleza misma. Al mismo tiempo, se nombran todos los elementos obligatorios de los sistemas y el proceso de su funcionamiento.

En el esquema general de intercambio de información de suscriptores en un sistema de comunicación que utiliza códigos de bloque, se pueden distinguir los siguientes conceptos y los elementos correspondientes de un sistema de comunicación:

  • Fuente de mensajes (información): textos, documentos de archivo, imágenes de audio, video, etc.
  • El remitente del mensaje en algún alfabeto;
  • Mensaje: muchas palabras de información digitalizadas;
  • Codificador: un dispositivo o programa de computadora que implementa la conversión de un mensaje del remitente en palabras de código;
  • , ;
  • , ;
  • , , , ;
  • , ;
  • () .

Algunos de los elementos del sistema se pueden combinar en uno con las mismas funciones o funciones modificadas. El alfabeto puede ser simple (binario) en transmisión y recepción lados, la fuente y el remitente del mensaje, así como el receptor y el usuario puede ser una persona, las funciones del decodificador puede ser limitado a la detección de errores sin corregir ellos, pero con la eliminación de palabras de código distorsionadas, etc.

¿Cuál debe ser de la descripción existente del código genético y el funcionamiento de un organismo vivo ?

Consideramos una célula en cuyo núcleo es un conjunto de cromosomas representados por moléculas de ADN registradas en forma de una secuencia de genes separados por "comas". Cada gen está formado por codones de 3 letras (trillizos) en un alfabeto de 4 letras.

No hay separadores (comas) entre los codones (trillizos) dentro del gen; los trillizos (codones, palabras) se escriben en una secuencia continua y no ramificada. Los cromosomas en general y los genes individuales tienen una carga de información llamada información hereditaria, que se transmite a las células de una nueva generación como resultado del proceso de división de las células parentales.

El llenado semántico e informativo de los genes heredados de los padres son los atributos físicos de un organismo (individuo) de cierto tipo que no se registra explícitamente. La transmisión de los síntomas (por ejemplo, el color del cabello) es de varias etapas: triplete, aminoácido, enzima, proteína, órgano o tejido corporal. Estos signos no se registran explícitamente, sino indirectamente, a través de las proteínas sintetizadas. Las proteínas, aminoácidos, trillizos involucrados en la síntesis son diferentes para las rubias y las morenas. Las proteínas para las rubias (padres rubios) se usarán en diferentes tejidos y órganos, proporcionando a los descendientes la apariencia de rasgos heredados y el color del cabello.

Se supone que esos conjuntos de enzimas que se sintetizan en la célula y proporcionan la formación adicional de toda la variedad de proteínas necesarias para el crecimiento y el desarrollo del cuerpo, garantizan la aparición del genotipo, que está determinado por la herencia. La lista completa de codones (trillizos) está limitada a 4 3 = 64, pero la composición y secuencia de dichos codones que forman el gen es muy grande. Cada aminoácido (enzima, proteína) requiere un conjunto separado de codones o un gen para su síntesis.

Todas las proteínas de un organismo particular son únicas. Una proteína alienígena que ingresa al cuerpo o una proteína distorsionada de su cuerpo, tomada como un extraño, es rechazada por el cuerpo. Este es el sistema inmune. Es este sistema el que verifica la corrección de la codificación de proteínas utilizando el genoma. En otras palabras, el papel de las palabras de código es desempeñado por proteínas sintetizadas en el cuerpo, y el sistema inmune actúa como un decodificador.

El destinatario de un mensaje procesado por un decodificador debe considerarse órganos y tejidos de un organismo vivo que utiliza proteínas específicas para el crecimiento y la actividad vital. El usuario del mensaje es el organismo mismo.

Se puede suponer que el cromosoma y los genes originales surgieron originalmente del rasgo requerido, formado por la lista de proteínas, y a través de proteínas de los aminoácidos que formaron la lista deseada de proteínas y, finalmente, de los codones que sintetizan estos aminoácidos. Entonces, la información sobre el rasgo de un organismo podría registrarse inicialmente en genes y cromosomas, que se almacenan en ellos, transmitidos durante la división celular a las nuevas generaciones de células y organismos. Un rasgo deseable para el organismo fue fijado y preservado por muchas, muchas generaciones. Aunque lo que se ha dicho aquí contradice el dogma central de la biología molecular, la cadena enumerada puede rastrearse mentalmente en ambas direcciones.

Entonces, ¿a qué nos enfrentamos al comparar dos sistemas de transferencia de información (en vivo y técnicos):

  • La fuente de los mensajes (información) es la célula y en ella la fuente de ADN y el portador.
  • , – , ;
  • – () , ;
  • , , , , « » ;
  • , — ;
  • , — , , ;
  • – , ;
  • , , – ;
  • () – , .

( )


. , « , , » . .

« , » ..
. – , . , .

Distinguir la inmunidad celular, y junto con los productos proteicos de su propia actividad (inmunidad humoral). El sistema actúa como un todo. Incluye aproximadamente 10 12 linfocitos y 10 20 moléculas de inmunoglobulina, con la tarea de identificar antígenos.

Los antígenos (Ag) son moléculas y células de animales de la misma especie ( alogénica ), de otra especie ( exógena ), así como artificiales o sintéticos. Los antígenos alogénicos producidos por el propio cuerpo, pero luego modificados, se denominan autólogos .

Después de la identificación del antígeno, el sistema inmune lo neutraliza y lo elimina utilizando células T especiales o anticuerpos(At), que son producidas por las células B. Los factores humorales llamados complemento y el sistema properdino realizan las mismas funciones . Los macrófagos realizan la fagocitosis y la destrucción intracelular de Ag .

Todos estos componentes del sistema inmune forman la red inmunológica del cuerpo.
Dicha red a veces tiene hipersensibilidad y, a veces, inmuno-tolerancia o inmunodeficiencia, lo cual es una violación de la norma.

En el primer caso, se produce una respuesta inmune excesiva, y en el segundo, se manifiesta por la ausencia de una respuesta inmune selectiva. El caso más difícil es cuando los antígenos alogénicos se convierten en autólogos y el sistema inmunitario del cuerpo comienza a actuar contra sí mismo. Esto completa el mapeo de sistemas.

Otro enfoque para el desarrollo de un GC consiste en representar sus elementos como estructuras algebraicas (campo de Galois) y espaciales ( ver documentos ). Según las descripciones disponibles del Código Civil, la lista de sus palabras contiene 64 trillizos, cada uno de ellos se puede comparar con la parte superior de un solo cubo.

La figura 2 muestra un cubo de seis dimensiones de este tipo con 2 6 = 64 vértices según Yablonsky.

Código genético (continuación)

En nuestro mundo tridimensional (n = 3), en la naturaleza animada e inanimada hay fenómenos asombrosos llamados autoorganización y autoensamblaje de elementos, por ejemplo, en la naturaleza inanimada, la nucleación y el crecimiento de cristales. En este fenómeno, se manifiesta el efecto de las leyes cristalográficas de la naturaleza. Con el tiempo, el hombre descubrió estas leyes, las explicó y se colocó al servicio. En 1848, Auguste Brave dedujo geométricamente 14 tipos de redes espaciales (traslacionales) formadas por celdas idénticas en forma.

En 1890, E. S. Fedorov estableció la existencia de 17 grupos cristalográficos algebraicos planos y 230 espaciales. Este descubrimiento del científico determina, en particular, las posibilidades y limitaciones de la naturaleza para construir cristales. La propiedad de ser un cristal para sustancias es bastante rara. La mayoría de las sustancias, incluso en soluciones, prefieren permanecer (amorfas) en forma desordenada por emulsiones, suspensiones o coloides y no cristalizan.

Desde el punto de vista de las matemáticas, las redes cristalográficas realizan tipos de simetrías simples y complejas. Las pinturas de Escher ilustran muchas de ellas. Los cristales en espacios de dos y tres dimensiones no tienen simetría de rotación de 5 rayos: esta es la limitación cristalográfica de nuestro mundo con geometría tridimensional. En un mundo de 4 dimensiones, esta restricción se elimina. Entre la diversidad matemática existente, una oportunidad para resaltar y una clase de simetrías más estrecha: polígonos regulares en un plano y poliedros regulares en el espacio n-dimensional, Rosenfeld B. V. Karasev .

Tabla 2 - Poliedros regulares y sus características (caso n = 3)

p * - el número de vértices en la cara; q * es el número de caras adyacentes al vértice.

Tabla 3 - Poliedros regulares y sus características (caso n = 4)


En cada vértice del poliedro q convergen p-gones idénticos.
Los valores (p, q, r) para un 4-poliedro regular están determinados por soluciones enteras de la desigualdad sin (π / p) · sin (π / r)> cos (π / q). Hay solo 6 soluciones enteras de este tipo, todas se enumeran en la tabla 3. Las

matemáticas, como de costumbre, brindan muchas más oportunidades de las que la naturaleza o el hombre pueden darse cuenta. Aunque es posible que nuestro conocimiento de la naturaleza sea muy limitado. Se conoce un caso de comportamiento reflexivo hereditario de las abejas cuando construyen almacenes hexogonales para sus reservas de miel.

A partir del análisis de la HA y teniendo en cuenta las propiedades adicionales de los elementos de código del modelo espacial de la colocación de sus elementos, se deduce que dichos elementos están dispuestos teniendo en cuenta las diversas simetrías espaciales de las moléculas de aminoácidos.

La forma en que el dodecaedro de 20 vértices está conectado (matemáticamente) con la genética de los organismos vivos no está completamente claro. Pero las caras de 5 lados del dodecaedro y el resultado de las limitaciones cristalográficas de la naturaleza se manifiestan en ausencia de simetría rotacional de los cinco aminoácidos en los vértices de las caras.

Entre los 5 posibles 3-poliedros correctos para el modelado de la naturaleza, no se seleccionó el más simple, pero cumple con el requisito cuantitativo de las enzimas celulares sintetizadas (20). Tantos picos tiene el dodecaedro. Los 20 aminoácidos existentes (enzimas celulares) pueden asignarse a los vértices del dodecaedro, en un orden específico. De hecho, fue posible colocar 20 aminoácidos en el espacio (n = 3) para que sus coordenadas correspondan a los vértices del dodecaedro, y ciertas propiedades del poliedro reflejarían las dependencias simétricas de los aminoácidos.



La figura muestra I - el plano de antisimetría inversa; II - el plano que divide las "antípodas". La intersección de los planos es uno de los ejes de rotación del dodecaedro.

Las letras A y B con índices (superior e inferior) y signos (±) denotan aminoácidos que tienen ciertas propiedades (Tabla 1). Entonces, en el lado izquierdo de la Figura 1, todos los elementos sobre el plano horizontal que pasa por el centro del poliedro están marcados con , y debajo de la horizontal con ⊖, que caracterizan la polaridad de los aminoácidos.

En 1968, Rumer Yu. B. propuso y proporcionó una matriz y una descripción gráfica de las conformaciones (Tabla 4).

Tabla 4- Conformaciones (64) de un gráfico de 4 enlaces y sus descripciones (según Rumer) La


disposición de elementos y gráficos en la tabla es tal que los elementos adyacentes en el bloque difieren entre sí en un solo valor (1 bit de información). Por lo tanto, se asemeja a un código gris.

Modelo de codificación topológica de polímeros en cadena. El autor identifica tres componentes del modelo: código topológico; algoritmo de codificación de cadena; Un sistema de operadores físicos que recrean una estructura codificada. El modelo utiliza las transformaciones Rumer [7].

Por ejemplo, trillizos AAC, AAU - Asn; AAG, AAA - Lys de la izquierda se convierten a la derecha al reemplazar las bases C - A; G - U.

Tabla 5 - Transformación de la matriz de conformaciones en un triplete HA (según Karasev V. Luchinin V.)

En la matriz [3 × 3] de la gráfica, un borde conectado conecta los vértices con los números i e i-4 y corresponde a un valor de 1.

Según las descripciones de GC disponibles, la lista de sus codones contiene 64 tripletes, cada uno de los cuales puede asociarse con un vértice de un cubo unitario. La figura 2 muestra un único cubo de seis dimensiones con 2 6 = 64 vértices.

Por otro lado, el campo expandido de Galois GF (2 6 ), formado por 64 elementos y un solo hipercubo (n = 6) con el mismo número de vértices, puede asociarse con 64 tripletes .



Figura 2 - Un solo cubo ([11] según Yablonsky SV) con vértices marcados ([4,7] según Karasev, Rumer) Elementos GK.

Dado que el número de vértices y trillizos coincide, podemos establecer una relación uno a uno entre ellos: una biyección, que es representable por una permutación de elementos. Los aminoácidos de HA se asignan a cada vértice de un solo cubo uno a la vez.


Figura 3 - Partes del hipercubo

Código topológico. Se selecciona como fragmento inicial un fragmento de 4 unidades de un polímero de cadena (4a), que se transforma en un gráfico de cadena (4b). Bordes del gráfico (kc): los enlaces de polímero son incidentes con los vértices (i, i-1, i-2, ..., i-4) de los puntos finales de los enlaces.

Los vértices del gráfico x1, x2, ..., x6 son variables que toman valores 0 o 1.


Figura 4 - Fragmento de cuatro unidades del polímero de cadena (a), su gráfico (b) y la matriz del gráfico (c)

Tablas del campo de Galois. Esta es una tabla de suma y una tabla de multiplicación de campo, esto también incluye una tabla de elementos de campo de Galois, que muestra varias representaciones de elementos y algunas características de elementos;

La columna izquierda de la tabla de elementos es el grado del elemento primitivo (000010) del campo. Estos grados recorren todos los elementos del campo. Las siguientes columnas: representación de elementos de campo por polinomio, vector binario, número decimal, orden de elementos de campo, vector inverso multiplicativo, grado de polinomio inverso, inverso en representación decimal, peso de palabra de código.

Esteganografía y protección de la información [1, 2, 12, 13, 14]


Se sabe que el ADN está formado por una secuencia de genes, entre los cuales se llaman exones e intrones. Los exones codifican una proteína, inician su síntesis y los intrones no codifican nada. Incluso fueron llamados genes "silenciosos". Las enzimas especiales eliminan los intrones del ADN antes de que comience la síntesis de proteínas.

Por ejemplo, en una persona del genoma, casi el noventa por ciento de los intrones. Para aplicaciones esteganográficas, son los intrones los que son de interés. Además, la propiedad de degeneración de HA permite no solo la generación de contenedores de ADN artificial, sino también la modificación de los naturales.

Los contenedores de ADN después de incrustar mensajes en ellos deben ir al destinatario del mensaje. Esto puede hacerse de muchas maneras. Por ejemplo, para introducir en el genoma del organismo al que pertenece el modelo de la molécula de ADN utilizada. Los virus ordinarios nos muestran un mecanismo de distribución de ADN exitoso.
Definición . La esteganografía es la ciencia de los métodos para incrustar / recuperar, transmitir (almacenar) información oculta, en la que se organiza un canal oculto sobre la base y dentro de un canal abierto utilizando las características de percepción de la información, y para este propósito, las técnicas que se pueden utilizar:

  • ocultamiento completo de la existencia de un canal de comunicación oculto,
  • creando dificultades para detectar, recuperar o modificar mensajes ocultos transmitidos dentro de mensajes de contenedor abierto,
  • enmascarar información oculta en el protocolo.

El concepto general de esteganografía es la creación de un canal oculto para transmitir información entre el emisor (A) y el receptor (B). Por lo tanto, en un mensaje, llamado contenedor o mensaje de cobertura de un gran flujo de mensajes en las redes, que es enviado por el suscriptor A ≠ A suscriptor B ≠ B encubierto (oculto de A y B ) se coloca (suscriptor incrustado A) otro mensaje de menor volumen ( aproximadamente La patente se puede leer aquí ).

Se consideran diferentes condiciones y posibilidades para las desigualdades indicadas. El primer par o el segundo par pueden ser una persona, o la igualdad se realiza para ambos pares de suscriptores, aunque este último no es deseable.

En los años 50 del siglo pasado, Richard Feynman llevó a cabo una justificación teórica de la posibilidad de utilizar moléculas de ADN para organizar los cálculos.
Definición . Un algoritmo esteganográfico es un par de transformaciones mutuamente invertibles: la F directa: M × B × K → B y la inversa F -1 : B × K → M, correspondiente al contenedor de resultados triple (mensaje M, pB - contenedor vacío, clave K) y el par (zB es el contenedor lleno, K es la clave) es el mensaje inicial M y F (m, b, k) = b m, k ;
F -1 (b m, k , k) = m, donde m ∊ M; b, b m, k ∊ B; k∊ K.

El sistema esteganográfico (GHS) se denomina sistema S = (M, B, K, F, F -1 ), formado por conjuntos de mensajes, contenedores, claves y transformaciones que los conectan.

La implementación (ocultación) / recuperación de un mensaje por medio del GHS es el resultado de la transformación esteganográfica directa / inversa con los valores de argumento correspondientes.
Definición . La secuenciación es la determinación de la secuencia de nucleótidos en un fragmento de ADN.

La presencia y el desarrollo de la tecnología informática, las tecnologías microbiológicas permitieron hablar y utilizar prácticamente los elementos estructurales de las células vivas (ADN, ARN, etc.) como contenedores esteganográficos [3,4]. Las propiedades de estos elementos para almacenar grandes cantidades de información y tener dimensiones microscópicas atraen la atención de los especialistas, a pesar de que trabajar con ellos requiere una alta capacitación profesional y el uso de equipos costosos especializados.

Lista de literatura utilizada:
1. .. . . — .: , 2003. 152 .
2. . . . . – .: -, 2002. – 272 .
3. . ., . . // . 2002. . 7. . 274 — 278.
4. .. / 23.03.2004, №470-2004.
5. . . . – .: , 1966. – 648 .
6. . . – .: ,1976. – 224.
7. . . // . 1968. . 183. .225-226
8. – . . – .: ,
9. . . : . – .: , 1999. – 352 .
10. . . -. . / . . . . . . .: , 1964. . 195 – 219.
11. . .– .: , 1979.–272 .
12. Bancroft F. C. Clelland C. DNA-based steganography. United States Patent №6.312.911. November 06,2001.US Patent & Trademark Office.
13. Bancroft F. C. Clelland C. DNA-based steganography. WO0068431. November 16,2000. World Intelltctual Property Organization.
14. Pfitzmann B. Information Hiding Terminologiy, Information Hiding //First International Workshoh. Vol. 1174 of Lecture Notes in Computer Science, Isaac Newton Institute, Cambrige, England, May 1996.- Berlin: Springer-Verlag/pp 347-350.

All Articles