Analyse des données ChIP-seq: des histones aux tùches informatiques

Chaque annĂ©e, l' Institut de bioinformatique de Saint-PĂ©tersbourg et de Moscou recrute des biologistes, des mathĂ©maticiens et des programmeurs pour s'immerger dans le monde de la bioinformatique. Les biologistes apprennent Ă  programmer et Ă  s'entraĂźner Ă  mettre en Ɠuvre des idĂ©es dans le code, et les informaticiens Ă©tudient la biologie et appliquent des approches algorithmiques aux problĂšmes biologiques et mĂ©dicaux. La partie la plus importante de la formation est constituĂ©e de vrais projets scientifiques. Dans cet article, nous parlerons du travail et des rĂ©sultats des Ă©tudiants de l'Institut, rĂ©alisĂ©s sous la direction d'Oleg Shpynov de JetBrains Research en 2019. Le projet est consacrĂ© Ă  l'Ă©tude des changements de la chromatine humaine Ă  l'aide de l'apprentissage automatique.


Étudiants en informatique 2019 Institute of Bioinformatics

Qu'est-ce que le séquençage et pourquoi est-il nécessaire


Le désir de satisfaire la curiosité et de se comprendre, qui a commencé par une description de l'anatomie humaine, s'est progressivement approfondi et est passé à un niveau plus détaillé. Les cellules sanguines et leur interaction avec les parasites, les mécanismes de transmission des informations héréditaires et la formation de métastases par les cellules cancéreuses ont été étudiés.

L'avĂšnement des technologies de sĂ©quençage nous a permis d'aller plus loin et de regarder directement «en face» du vecteur de l'information gĂ©nĂ©tique - l'ADN. En d'autres termes, l'acide dĂ©soxyribonuclĂ©ique, qui est situĂ© dans le noyau de presque toutes les cellules de notre corps, est responsable de notre apparence, de notre taille, du timbre de notre voix et de la possibilitĂ© de contracter le paludisme. Cependant, la technologie, comme les mĂ©thodes biochimiques, ne s'arrĂȘte pas. Leur combinaison a permis de "mettre en lumiĂšre" des mĂ©canismes plus complexes du corps. Voyons cela plus en dĂ©tail.

Comment séquencer les organismes


Les technologies de séquençage ont changé, et le progrÚs technologique permet désormais, selon les souhaits, de séquencer des cellules individuelles, d'en observer les changements dans le temps ou simplement d'obtenir des informations complÚtes sur la séquence du vecteur d'information héréditaire - l'ADN. En fait, le séquençage vous permet de traduire une molécule biologique dans un fichier texte, avec lequel vous pouvez ensuite travailler en texte brut. Les méthodes de séquençage modernes utilisent l'approche du «fusil de chasse» et produisent un grand nombre de courts fragments. Dans certaines analyses, ces courts fragments sont «essayés» sur des génomes existants et examinent les différences dans la séquence du «texte».

Que sont les histones et qu'affectent-elles


Le brin d'ADN est trĂšs long et ne peut pas ĂȘtre en permanence dans un Ă©tat sans torsion - il est gĂȘnant et dangereux (il y a une plus grande probabilitĂ© de trou quelque part). Par consĂ©quent, la molĂ©cule spirale (se tord trĂšs fortement) et est compacte, enveloppĂ©e dans des complexes protĂ©iques spĂ©ciaux, comme les cheveux sur les bigoudis. Ces protĂ©ines sont appelĂ©es nuclĂ©osomes et sont composĂ©es de protĂ©ines histones. La modification des histones est un exemple d'un mĂ©canisme plus gĂ©nĂ©ral de rĂ©gulation Ă©pigĂ©nĂ©tique. L'organisme est vivant et doit rĂ©pondre aux changements environnants. La rĂ©action du corps comprend le changement dans l'expression des gĂšnes. Si le fragment d'ADN sur lequel se trouve le gĂšne est Ă©troitement emballĂ© et enroulĂ© sur le nuclĂ©osome, il est impossible de s'y rendre et de lire les informations. Par consĂ©quent, des groupes spĂ©ciaux de phosphoryle et d'acĂ©tyle sont accrochĂ©s aux histones,ce qu'on appelle la phosphorylation ou l'acĂ©tylation se produit. Cela provoque le dĂ©placement de l'histone et donne accĂšs au fragment d'ADN souhaitĂ©. Mais le nuclĂ©osome reste liĂ© Ă  l'ADN et cela peut ĂȘtre utilisĂ© dans des Ă©tudes rĂ©glementaires.


Le mécanisme d'acétylation et de méthylation des histones ( source )

Séquençage d'immunoprécipitation de la chromatine (ChIP-seq) et son utilisation


Pour étudier les fragments d'ADN qui restent liés à la protéine, il existe une méthode spéciale: l'immunoprécipitation de la chromatine (immunoprécipitation de la chromatine, ChIP). Cette analyse se déroule comme suit:

  • rĂ©ticulation rĂ©versible entre l'ADN et ses protĂ©ines en interaction (gĂ©nĂ©ralement par traitement au formaldĂ©hyde)
  • Isolement et fragmentation de l'ADN par ultrasons ou endonuclĂ©ases
  • dĂ©pĂŽt d'anticorps spĂ©cifiques aux protĂ©ines
  • la destruction des liaisons croisĂ©es entre la protĂ©ine et l'ADN, la purification de l'ADN

En bref, nous retirons la protéine liée à l'ADN de la solution et la faisons «lùcher» l'ADN. D'un point de vue biologique, le champ d'action est compréhensible: l'étude de l'expression des gÚnes, les zones fermées et ouvertes, etc. Nous parlerons des choses que les programmeurs peuvent faire dans cette tùche ci-dessous.

Dans le cas du séquençage ChIP (-seq), les fragments d'ADN résultants sont amplifiés (duplication artificielle de fragments) et séquencés. Ensemble de séquences de petits morceaux d'ADN et étude de la bioinformatique.

Les données reçues passent le contrÎle de qualité, sont filtrées, alignées sur une séquence d'ADN et traitées par des programmes spéciaux.


Schéma de préparation d'ADN pour l'analyse

La tĂąche de recherche de sites de liaison Ă  l'ADN est souvent appelĂ©e tĂąche d'appel de pointe, et la classe d'outils est celle des appelants de pointe. À l'heure actuelle, il existe de nombreuses approches et outils informatiques pour analyser ces donnĂ©es, mais les algorithmes ne sont pas idĂ©aux et prĂ©sentent un certain nombre de limites. Il existe encore de nombreux problĂšmes informatiques non rĂ©solus pour les programmeurs et les informaticiens dans ce domaine.

Voici certains d'entre eux que les étudiants de spécialités mathématiques et techniques sont en train de résoudre:

  • Fragmentation et contrĂŽle inĂ©gaux

La disponibilitĂ© de la chromatine pendant la fragmentation n'est pas la mĂȘme dans diffĂ©rentes parties du gĂ©nome: elle est plus accessible dans les rĂ©gions activement transcrites, par consĂ©quent, les fragments d'ADN correspondants prĂ©vaudront dans l'Ă©chantillon, ce qui peut conduire Ă  un rĂ©sultat faussement positif. En revanche, les zones trĂšs compactes peuvent ĂȘtre moins susceptibles de se fragmenter et donc d'ĂȘtre moins reprĂ©sentĂ©es dans l'Ă©chantillon, ce qui peut conduire Ă  un rĂ©sultat faussement nĂ©gatif.

  • Nombre de cellules

La technique classique a un certain nombre de limites. Ainsi, gĂ©nĂ©ralement un nombre important de cellules (environ 10 millions) sont nĂ©cessaires pour ChIP-seq, ce qui complique l'application de cette mĂ©thode sur les petits organismes (tels que les champignons ou les protozoaires), et limite Ă©galement le nombre d'expĂ©riences pouvant ĂȘtre effectuĂ©es avec un Ă©chantillon prĂ©cieux.

  • Bruit de donnĂ©es

Au cours de l'expérience ChIP-seq, il est possible d'obtenir dans la bibliothÚque finale non seulement des fragments d'ADN associés à la protéine, mais également d'autres fragments non spécifiquement liés. Cela peut se produire en raison de la spécificité non idéale de l'anticorps, des problÚmes de lavage des fragments d'ADN libres, etc. Ces fragments forment le soi-disant bruit dans les données. Le problÚme réside non seulement dans l'existence du bruit, mais aussi dans la complexité de sa mesure. Pour évaluer son niveau, il existe une métrique du rapport signal / bruit (SNR), qui est déterminée par le nombre et la puissance des pics obtenus pour chaque échantillon. Cependant, un SNR élevé ne garantit pas la détermination correcte des sites de liaison, mais reflÚte simplement la présence d'un grand nombre de régions du génome,qui sont alignés (sur le chromosome à cet endroit la séquence coïncide avec le désiré) de nombreuses lectures - de petits fragments d'ADN.

Options de résolution de problÚmes


Une partie de ces tùches a été résolue par des étudiants de l'Institut de bioinformatique sous la direction d'Oleg Shpynov de JetBrains Research dans le cadre de projets de recherche semestriels.
Appel de pointe bruyant.
Ă©tudiant: Chaplygina Daria



Dans l'article «Impact de la profondeur de sĂ©quençage dans les expĂ©riences ChIP-seq» (1), les auteurs ont Ă©tudiĂ© l'effet de la taille de la bibliothĂšque (le nombre de lectures initiales) sur les rĂ©sultats des algorithmes de recherche de pics. Ils ont crĂ©Ă© des jeux de donnĂ©es artificiels pour diffĂ©rents types de modifications des histones par Ă©chantillonnage alĂ©atoire Ă  partir d'expĂ©riences rĂ©elles. Comme prĂ©vu, plus la bibliothĂšque est pauvre, plus il est difficile pour les algorithmes de trouver des pics, les rĂ©sultats sont incohĂ©rents entre les diffĂ©rentes mĂ©thodes. Mais ils ont Ă©galement remarquĂ© que, dans le cas de l'utilisation du mĂȘme outil, la coordination entre les rĂ©pliques biologiques est perdue. Dans un projet de semestre, nous avons Ă©tudiĂ© l'effet du bruit dans les donnĂ©es sources.

L'ensemble de données avec un niveau de bruit contrÎlé a été obtenu sur la base des données accessibles au public des expériences ChIP-seq du site du projet ENCODEProjet ENCODE . Pour cela, deux modÚles de bruit ont été utilisés:

  1. ModÚle additif. Des fragments de coupes aléatoires d'ADN ont été ajoutés au fichier source avec des «données propres». La proportion de fragments aléatoires variait de 0% à 90%.
  2. ModÚle probabiliste. Pour chaque expérience, un modÚle mathématique a été construit à l'aide de l'outil Tulip. Avec son aide, une expérience complÚtement nouvelle a été générée, dont l'un des paramÚtres - le pourcentage de fragments situés à l'intérieur des sites de liaison ADN-protéine - variait de 10% à 0,5%.

ModÚle probabiliste. Pour chaque expérience, un modÚle mathématique a été construit à l'aide de l'outil Tulip. Avec son aide, une expérience complÚtement nouvelle a été générée, dont l'un des paramÚtres - le pourcentage de fragments situés à l'intérieur des sites de liaison ADN-protéine - variait de 10% à 0,5%.


Visualisation des changements de données lors de l'application d'un modÚle de bruit probabiliste

Sur l'ensemble de donnĂ©es obtenu, nous avons analysĂ© trois algorithmes: MACS2 (2), SICER (3) et SPAN (un algorithme dĂ©veloppĂ© par JetBrains Research. Il est basĂ© sur des semi-supervisĂ©smĂ©thode d'apprentissage automatique). Comme il s'est avĂ©rĂ©, avec un SNR fixe, on peut prĂ©dire la prĂ©cision et l'exhaustivitĂ© attendues de l'ensemble des pics qui seront trouvĂ©s par l'algorithme. À un niveau de bruit Ă©levĂ© (ou faible SNR): MACS2 et SICER ne trouvent presque pas de pics, tandis que SPAN affiche les rĂ©sultats les plus stables en termes de combinaison d'indicateurs.



PrĂ©cision et exhaustivitĂ© des algorithmes de recherche de crĂȘte dans un niveau de bruit contrĂŽlĂ©

Nous avons Ă©tudiĂ© comment, dans le processus de bruit, deux mĂ©triques de changement de qualitĂ© des donnĂ©es: SNR et pourcentage de fragments dans les pics (FRIP - Fraction of Reads In Peaks). Les mesures ont montrĂ© que pour le mĂȘme SNR, la fraction de fragments par rĂ©gion d'interaction ADN - protĂ©ine peut varier de maniĂšre significative (dans certains cas, la diffĂ©rence Ă©tait jusqu'Ă  50%). Les normes et recommandations existantes pour Ă©valuer la qualitĂ© de ces expĂ©riences ChIP-seq sont incomplĂštes et de nouvelles approches intĂ©grĂ©es sont nĂ©cessaires.
Dans le cadre des travaux, nous avons également développé des pipelines pour la conduite semi-automatique de telles expériences.

Implémentation d'approches et de code source:

github.com/DaryaChaplygina/NoisyPeakCalling ,

github.com/DaryaChaplygina/NoisyPeakCalling2 .

Apprendre en profondeur Ă  la rescousse!
Ă©tudiante: Daria Balashova

L'une des limites de la méthode classique ChIP-seq est la grande quantité de matériel cellulaire nécessaire, qui ne permet pas l'expérience, par exemple, dans le cas de populations de cellules rares ou dans le cas de plusieurs mesures pour un échantillon biologique. La nouvelle méthode Chip-seq (4) Ultra-Low-Input (ULI) nécessite beaucoup moins de matériel - 100 000 cellules sont suffisantes - mais présente une plus grande variabilité et niveau de bruit dans les données.

L'utilisation de méthodes d'apprentissage machine approfondies gagne en popularité en bioinformatique, démontrant d'excellents résultats dans la résolution de problÚmes tels que le traitement d'images biomédicales. Dans l'ouvrage «Débruitage des histones à l'échelle du génome ChIP-seq avec des réseaux de neurones convolutifs» (5), les auteurs ont proposé un algorithmeCoda est une méthode d'amélioration de la qualité des données ChIP-seq basée sur des réseaux de neurones convolutifs. Ils ont créé et formé un réseau neuronal profond non seulement pour améliorer les données de mauvaise qualité, mais aussi pour y trouver des pics.

Dans le cadre de ce projet, l'algorithme original a été adapté pour les données ULI ChIP-seq. En utilisant les résultats du projet précédent et les données ULI ChIP-seq de l'article «Changements épigénétiques dans les monocytes humains vieillissants» (6), nous avons analysé des caractéristiques importantes de l'algorithme telles que l'amélioration des paramÚtres de qualité, par exemple, le SNR. En conséquence, l'algorithme DCNN a été créé . - réseau neuronal convolutif pour améliorer automatiquement la qualité des données en fonction du rapport signal / bruit en cas de répétitions biologiques. Si l'amélioration et la purification du signal fonctionnent assez bien, la recherche de sites de liaison des protéines avec l'ADN en utilisant des méthodes d'apprentissage en profondeur n'est toujours pas résolue, car les approches existantes nécessitent un échantillon d'apprentissage de grande taille et de haute qualité.


Représentation schématique de l'application du réseau neuronal convolutif DCNN

Implémentation de l'approche et du code source: github.com/dashabalashova/Denoising_CNN .

Au lieu d'une postface


La bioinformatique vous permet d'appliquer les approches des programmeurs aux données biologiques et d'acquérir de nouvelles connaissances qui aideront les biologistes et les médecins à étudier les humains. Maintenant ouvert accepte les candidatures pour l' école d'été 2020 , qui se tiendra à Saint-Pétersbourg du 27 juillet au 1er août. Il est idéal pour explorer la bioinformatique.

Pour ceux qui ont décidé d'une formation plus sérieuse - il y a une chance de sauter dans la derniÚre voiture et de postuler à un programme de recyclage en bioinformatique à Saint-Pétersbourg et à Moscou jusqu'au 22 février ou jusqu'au 1er mars au séminaire de retraite sur la biologie des systÚmes .

Pour ceux qui aiment lire et découvrir de nouvelles choses, nous avons une liste de livres et de manuels sur les algorithmes, la programmation, la génétique et la biologie.

Bibliographie:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,
 & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,
 & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour, J., Liu, S., Hudson, M., Chen, C., Karimi, MM, & Lorincz, MC (2015). Un protocole ChIP-seq natif à entrée ultra-faible pour le profilage à l'échelle du génome de populations de cellules rares. Communications sur la nature, 6 (1), 1-8.
  5. Koh, PW, Pierson, E. et Kundaje, A. (2017). Débruitage de l'histone à l'échelle du génome ChIP-seq avec des réseaux de neurones convolutionnels. Bioinformatics, 33 (14), i225-i233.
  6. Schukina, Bagaitkar, Shpynov et al., In review, artyomovlab.wustl.edu/aging


Auteurs de l'article:
Olga Bondareva, Institut de bioinformatique
Oleg Shpinov , JetBrains Research
Ekaterina Vyakhhi , Institut de bioinformatique

All Articles