Análisis de datos ChIP-seq: de histonas a tareas informáticas

Cada año, el Instituto de Bioinformática de San Petersburgo y Moscú recluta biólogos, matemáticos y programadores para sumergirse en el mundo de la bioinformática. Los biólogos aprenden a programar y entrenar para implementar ideas en código, y los informáticos estudian biología y aplican enfoques algorítmicos a problemas biológicos y médicos. La parte más importante de la capacitación son los proyectos de ciencias reales. En este artículo, hablaremos sobre el trabajo y los resultados de los estudiantes del Instituto, realizados bajo la dirección de Oleg Shpynov de JetBrains Research en 2019. El proyecto está dedicado al estudio de los cambios en la cromatina humana mediante el aprendizaje automático.


Estudiantes de informática 2019 Instituto de Bioinformática

¿Qué es la secuencia y por qué es necesaria?


El deseo de satisfacer la curiosidad y comprenderse a sí mismo, que comenzó con una descripción de la anatomía humana, se profundizó gradualmente y se movió a un nivel más detallado. Se estudiaron las células sanguíneas y su interacción con parásitos, los mecanismos de transmisión de información hereditaria y la formación de metástasis por células cancerosas.

El advenimiento de las tecnologías de secuenciación nos ha permitido ir un nivel más profundo y mirar directamente "en la cara" del portador de información genética: el ADN. En otras palabras, el ácido desoxirribonucleico, que se encuentra en el núcleo de casi todas las células de nuestro cuerpo, es responsable de cómo nos vemos, qué tan alto, qué timbre hablamos y si podemos contraer la malaria. Sin embargo, la tecnología, como los métodos bioquímicos, no se detiene. Su combinación permitió "sacar a la luz" mecanismos más complejos del cuerpo. Tratemos esto con más detalle.

¿Cómo secuenciamos organismos?


Las tecnologías de secuenciación han cambiado, y ahora el progreso tecnológico permite, dependiendo de los deseos, secuenciar células separadas, observar cambios en ellas a lo largo del tiempo o simplemente obtener información completa sobre la secuencia del portador de información hereditaria: ADN. De hecho, la secuenciación le permite traducir una molécula biológica en un archivo de texto, con el que luego puede trabajar como texto sin formato. Los métodos modernos de secuenciación utilizan el enfoque de "escopeta" y producen una gran cantidad de fragmentos cortos. En algunos análisis, estos fragmentos cortos son "probados" en genomas existentes y observan las diferencias en la secuencia del "texto".

¿Qué son las histonas y a qué afectan?


La cadena de ADN es muy larga y no puede estar permanentemente en un estado sin retorcer; es inconveniente y peligroso (hay una mayor probabilidad de una brecha en alguna parte). Por lo tanto, la molécula gira en espiral (se retuerce muy fuerte) y está compactada, envuelta en complejos proteicos especiales, como el cabello en rulos. Estas proteínas se llaman nucleosomas y están compuestas de proteínas histonas. La modificación de histonas es un ejemplo de un mecanismo más general de regulación epigenética. El organismo está vivo y necesita responder a los cambios circundantes. La reacción del cuerpo incluye el cambio en la expresión génica. Si el fragmento de ADN en el que se encuentra el gen está apretado y enrollado en el nucleosoma, entonces es imposible acceder a él y leer la información. Por lo tanto, grupos especiales de fosforilo y acetilo se cuelgan en histonas,Se produce la llamada fosforilación o acetilación. Esto hace que la histona se "mueva" y dé acceso al fragmento de ADN deseado. Pero el nucleosoma aún permanece unido al ADN y esto puede usarse en estudios regulatorios.


El mecanismo de acetilación y metilación de histonas ( fuente )

Secuenciación de inmunoprecipitación de cromatina (ChIP-seq) y su uso


Para estudiar los fragmentos de ADN que permanecen unidos a la proteína, existe un método especial: la inmunoprecipitación de la cromatina (inmunoprecipitación de la cromatina, ChIP). Este análisis tiene lugar de la siguiente manera:

  • reticulación reversible entre el ADN y sus proteínas que interactúan (generalmente por tratamiento con formaldehído)
  • Aislamiento y fragmentación del ADN por ultrasonido o endonucleasas
  • deposición de anticuerpos específicos de proteínas
  • la destrucción de enlaces cruzados entre proteínas y ADN, purificación de ADN

En resumen, eliminamos la proteína unida al ADN de la solución y la hacemos "soltar" el ADN. Desde un punto de vista biológico, el campo de acción es claro: el estudio de la expresión génica, áreas cerradas y abiertas, etc. Hablaremos sobre las cosas que los programadores pueden hacer en esta tarea a continuación.

En el caso de la secuenciación de ChIP (-seq), los fragmentos de ADN resultantes se amplifican (duplicación artificial de fragmentos) y se secuencian. Conjunto de secuencias de pequeños trozos de ADN y estudio de bioinformática.

Los datos recibidos pasan el control de calidad, se filtran, se alinean con una secuencia de ADN y se procesan mediante programas especiales.


Esquema de preparación de ADN para análisis

La tarea de encontrar sitios de unión de ADN a menudo se llama la tarea de llamada máxima, y ​​la clase de herramienta son los llamadores máximos. Por el momento, hay muchos enfoques computacionales y herramientas para analizar dichos datos, sin embargo, los algoritmos no son ideales y tienen varias limitaciones. Todavía hay muchos problemas computacionales sin resolver para programadores y científicos informáticos en esta área.

Aquí hay algunos de ellos que los estudiantes de especialidades matemáticas y técnicas están resolviendo actualmente:

  • Fragmentación desigual y control

La disponibilidad de cromatina durante la fragmentación no es la misma en diferentes partes del genoma: es más accesible en regiones transcritas activamente, por lo tanto, los fragmentos de ADN correspondientes prevalecerán en la muestra, lo que puede conducir a un resultado falso positivo. Las áreas apretadas, en contraste, pueden ser menos propensas a fragmentarse y, por lo tanto, estar menos representadas en la muestra, lo que puede conducir a un resultado falso negativo.

  • Número de celdas

La técnica clásica tiene una serie de limitaciones. Por lo tanto, generalmente se necesita un número significativo de células (aproximadamente 10 millones) para ChIP-seq, lo que complica la aplicación de este método en organismos pequeños (como hongos o protozoos), y también limita el número de experimentos que se pueden realizar con una muestra valiosa.

  • Ruido de datos

Durante el experimento ChIP-seq, es posible obtener en la biblioteca final no solo fragmentos de ADN que se asociaron con la proteína, sino también otros fragmentos no relacionados específicamente. Esto puede ocurrir debido a la especificidad no ideal del anticuerpo, problemas con el lavado de fragmentos de ADN libres, etc. Dichos fragmentos forman el llamado ruido en los datos. El problema radica no solo en la existencia de ruido, sino también en la complejidad de su medición. Para evaluar su nivel, existe una métrica de relación señal / ruido (SNR), que se determina por el número y la potencia de los picos obtenidos para cada muestra. Sin embargo, una SNR alta no garantiza la determinación correcta de los sitios de unión, sino que simplemente refleja la presencia de una gran cantidad de regiones del genoma,que están alineados (en el cromosoma en este lugar la secuencia coincide con la deseada) muchas lecturas: pequeños fragmentos de ADN.

Opciones de resolución de problemas


Parte de estas tareas fueron resueltas por estudiantes del Instituto de Bioinformática bajo la dirección de Oleg Shpynov de JetBrains Research como parte de proyectos de investigación semestrales.
Ruidoso pico de llamadas.
estudiante: Chaplygina Daria



En el artículo "Impacto de la profundidad de secuenciación en los experimentos ChIP-seq" (1), los autores estudiaron el efecto del tamaño de la biblioteca (el número de lecturas iniciales) en los resultados de los algoritmos de búsqueda pico. Crearon conjuntos de datos artificiales para diferentes tipos de modificaciones de histonas mediante muestreo aleatorio de experimentos reales. Como se esperaba, cuanto más pobre es la biblioteca, más difícil es para los algoritmos encontrar picos, los resultados son inconsistentes entre los diferentes métodos. Pero también notaron que, en el caso de usar la misma herramienta, se pierde la coordinación entre las réplicas biológicas. En un proyecto semestral, investigamos el efecto del ruido en los datos de origen.

El conjunto de datos con un nivel de ruido controlado se obtuvo sobre la base de datos disponibles públicamente de experimentos ChIP-seq del sitio del proyecto ENCODEProyecto CODIFICAR . Para esto se utilizaron dos modelos de ruido:

  1. Modelo aditivo. Se agregaron fragmentos de secciones aleatorias de ADN al archivo fuente con "datos limpios". La proporción de fragmentos aleatorios varió de 0% a 90%.
  2. Modelo probabilístico. Para cada experimento, se construyó un modelo matemático utilizando la herramienta Tulip. Con su ayuda, se generó un experimento completamente nuevo, uno de cuyos parámetros, el porcentaje de fragmentos que se encuentran dentro de los sitios de unión a la proteína del ADN, varió del 10% al 0,5%.

Modelo probabilístico. Para cada experimento, se construyó un modelo matemático utilizando la herramienta Tulip. Con su ayuda, se generó un experimento completamente nuevo, uno de cuyos parámetros, el porcentaje de fragmentos que se encuentran dentro de los sitios de unión a la proteína del ADN, varió del 10% al 0,5%.


Visualización de cambios de datos al aplicar un modelo de ruido probabilístico

En el conjunto de datos obtenido, analizamos tres algoritmos: MACS2 (2), SICER (3) y SPAN (un algoritmo desarrollado por JetBrains Research. Se basa en semi-supervisadométodo de aprendizaje automático). Al final resultó que, con una SNR fija, uno puede predecir la precisión esperada y la integridad del conjunto de picos que encontrará el algoritmo. A un nivel de ruido alto (o SNR bajo): MACS2 y SICER casi no encuentran picos, mientras que SPAN muestra los resultados más estables en términos de una combinación de indicadores.



Precisión e integridad de los algoritmos de búsqueda de picos en un nivel de ruido controlado

Estudiamos cómo, en el proceso de ruido, dos métricas de cambio de calidad de datos: SNR y porcentaje de fragmentos dentro de picos (FRIP - Fracción de lecturas en picos). Las mediciones mostraron que para la misma SNR, la fracción de fragmentos por región de interacción ADN - proteína puede variar significativamente (en algunos casos, la diferencia fue de hasta el 50%). Las normas y recomendaciones existentes para evaluar la calidad de estos experimentos ChIP-seq son incompletas y se requieren nuevos enfoques integrados.
Como parte del trabajo, también desarrollamos tuberías para la realización semiautomática de tales experimentos.

Implementación de enfoques y código fuente:

github.com/DaryaChaplygina/NoisyPeakCalling ,

github.com/DaryaChaplygina/NoisyPeakCalling2 .

¡Aprendizaje profundo al rescate!
estudiante: Daria Balashova

Una de las limitaciones del método clásico de ChIP-seq es la gran cantidad de material celular necesario, que no permite el experimento, por ejemplo, en el caso de poblaciones de células raras o en el caso de varias mediciones para una muestra biológica. El nuevo método ChIP-seq (4) Ultra-Low-Input (ULI) requiere una cantidad significativamente menor de material (100,000 células son suficientes), pero tiene una mayor variabilidad y nivel de ruido en los datos.

El uso de métodos de aprendizaje automático profundo está ganando popularidad en bioinformática, demostrando excelentes resultados en la resolución de problemas como el procesamiento de imágenes biomédicas. En el trabajo "Denoising de la histona ChIP-seq en todo el genoma con redes neuronales convolucionales" (5), los autores propusieron un algoritmoCoda es un método para mejorar la calidad de los datos ChIP-seq basados ​​en redes neuronales convolucionales. Crearon y capacitaron una red neuronal profunda no solo para mejorar los datos de baja calidad, sino también para encontrar picos en ellos.

En el marco de este proyecto, el algoritmo original se adaptó para datos ULI ChIP-seq. Utilizando los logros del proyecto anterior y los datos ULI ChIP-seq del artículo "Cambios epigenéticos en el envejecimiento de los monocitos humanos" (6), analizamos características tan importantes del algoritmo como mejorar las métricas de calidad, por ejemplo, SNR. Como resultado, se creó el algoritmo DCNN. - red neuronal convolucional para mejorar automáticamente la calidad de los datos en función de la relación señal / ruido en el caso de repeticiones biológicas. Si la mejora y la purificación de la señal funcionan bastante bien, entonces la búsqueda de sitios de unión de proteínas con ADN utilizando métodos de aprendizaje profundo sigue siendo un problema no resuelto, ya que los enfoques existentes requieren una muestra de entrenamiento grande y de alta calidad.


Representación esquemática de la aplicación de la red neuronal convolucional DCNN

Implementación del enfoque y código fuente: github.com/dashabalashova/Denoising_CNN .

En lugar de un epílogo


La bioinformática le permite aplicar los enfoques de los programadores a los datos biológicos y obtener nuevos conocimientos que ayudarán a los biólogos y médicos a estudiar a los humanos. Ahora está abierto a aceptar solicitudes para la escuela de verano 2020 , que se llevará a cabo en San Petersburgo del 27 de julio al 1 de agosto. Es ideal para explorar bioinformática.

Para aquellos que han optado por un entrenamiento más serio, existe la posibilidad de subirse al último automóvil y solicitar un programa de reciclaje en bioinformática en San Petersburgo y Moscú antes del 22 de febrero o hasta el 1 de marzo en un seminario in situ sobre biología de sistemas .

Para aquellos a quienes les gusta leer y descubrir cosas nuevas, tenemos una lista de libros y libros de texto sobre algoritmos, programación, genética y biología.

Bibliografía:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour, J., Liu, S., Hudson, M., Chen, C., Karimi, MM y Lorincz, MC (2015). Un protocolo ChIP-seq nativo de entrada ultrabaja para el perfil de genoma de poblaciones de células raras. Nature communications, 6 (1), 1-8.
  5. Koh, PW, Pierson, E. y Kundaje, A. (2017). Chipeo-histona de histona de genoma completo con redes neuronales convolucionales. Bioinformática, 33 (14), i225-i233.
  6. Schukina, Bagaitkar, Shpynov et al., En revisión, artyomovlab.wustl.edu/aging


Autores del artículo:
Olga Bondareva, Instituto de Bioinformática
Oleg Shpinov , JetBrains Research
Ekaterina Vyakhhi , Instituto de Bioinformática

All Articles