ChIP-seq-Datenanalyse: von Histonen zu Computeraufgaben

Das Institut für Bioinformatik in St. Petersburg und Moskau rekrutiert jedes Jahr Biologen, Mathematiker und Programmierer, um in die Welt der Bioinformatik einzutauchen. Biologen lernen zu programmieren und zu trainieren, um Ideen in Code umzusetzen, und Informatiker studieren Biologie und wenden algorithmische Ansätze auf biologische und medizinische Probleme an. Der wichtigste Teil der Ausbildung sind echte wissenschaftliche Projekte. In diesem Artikel werden wir über die Arbeit und die Ergebnisse der Studenten des Instituts sprechen, die 2019 unter der Leitung von Oleg Shpynov von JetBrains Research durchgeführt wurden. Das Projekt befasst sich mit der Untersuchung von Veränderungen des menschlichen Chromatins durch maschinelles Lernen.


Informatikstudenten 2019 Institut für Bioinformatik

Was ist Sequenzierung und warum wird sie benötigt?


Der Wunsch, die Neugier zu befriedigen und uns selbst zu verstehen, der mit einer Beschreibung der menschlichen Anatomie begann, vertiefte sich allmählich und bewegte sich auf eine detailliertere Ebene. Die Blutzellen und ihre Wechselwirkung mit Parasiten, die Mechanismen der Übertragung von Erbinformationen und die Bildung von Metastasen durch Krebszellen wurden untersucht.

Das Aufkommen von Sequenzierungstechnologien hat es uns ermöglicht, noch eine Ebene tiefer zu gehen und dem Träger der genetischen Information - der DNA - direkt „ins Gesicht“ zu schauen. Mit anderen Worten, Desoxyribonukleinsäure, die sich im Zellkern fast jeder Zelle unseres Körpers befindet, ist dafür verantwortlich, wie wir aussehen, wie groß, welche Klangfarbe wir sprechen und ob wir Malaria bekommen können. Technologie steht jedoch wie biochemische Methoden nicht still. Ihre Kombination ermöglichte es, komplexere Mechanismen des Körpers "ans Licht zu bringen". Lassen Sie uns dies genauer behandeln.

Wie sequenzieren wir Organismen?


Die Sequenzierungstechnologien haben sich geändert, und jetzt ermöglicht der technologische Fortschritt je nach Wunsch die Sequenzierung einzelner Zellen, die Beobachtung von Änderungen im Laufe der Zeit oder einfach das Abrufen vollständiger Informationen über die Sequenz des Trägers erblicher Informationen - DNA. Tatsächlich können Sie durch Sequenzierung ein biologisches Molekül in eine Textdatei übersetzen, mit der Sie dann als Klartext arbeiten können. Moderne Sequenzierungsmethoden verwenden den "Shotgun" -Ansatz und liefern eine große Anzahl kurzer Fragmente. In einigen Analysen werden diese kurzen Fragmente an vorhandenen Genomen „anprobiert“ und untersuchen die Unterschiede in der Reihenfolge des „Textes“.

Was sind Histone und was beeinflussen sie?


Der DNA-Strang ist sehr lang und kann sich nicht dauerhaft in einem ungedrehten Zustand befinden - er ist unpraktisch und gefährlich (es besteht eine größere Wahrscheinlichkeit, dass irgendwo eine Lücke entsteht). Daher dreht sich das Molekül spiralförmig (dreht sich sehr stark) und ist kompakt verpackt, eingewickelt in spezielle Proteinkomplexe, wie Haare auf Lockenwicklern. Diese Proteine ​​werden Nukleosomen genannt und bestehen aus Histonproteinen. Die Histonmodifikation ist ein Beispiel für einen allgemeineren Mechanismus der epigenetischen Regulation. Der Organismus lebt und muss auf Veränderungen in der Umgebung reagieren. Die Reaktion des Körpers beinhaltet die Veränderung der Genexpression. Wenn das DNA-Fragment, auf dem sich das Gen befindet, dicht gepackt und auf das Nukleosom gewickelt ist, ist es unmöglich, dorthin zu gelangen und die Informationen zu lesen. Daher werden spezielle Phosphoryl- und Acetylgruppen an Histonen aufgehängt,Es tritt eine sogenannte Phosphorylierung oder Acetylierung auf. Dies bewirkt, dass sich das Histon "bewegt" und Zugang zum gewünschten DNA-Fragment gewährt. Das Nukleosom bleibt jedoch weiterhin an DNA gebunden, und dies kann in regulatorischen Studien verwendet werden.


Der Mechanismus der Acetylierung und Methylierung von Histonen ( Quelle )

Chromatin-Immunpräzipitationssequenzierung (ChIP-seq) und ihre Verwendung


Um die an das Protein gebundenen DNA-Fragmente zu untersuchen, gibt es eine spezielle Methode: Chromatin-Immunpräzipitation (Chromatin-Immunpräzipitation, ChIP). Diese Analyse erfolgt wie folgt:

  • reversible Vernetzung zwischen DNA und damit wechselwirkenden Proteinen (üblicherweise durch Formaldehydbehandlung)
  • DNA-Isolierung und Fragmentierung durch Ultraschall oder Endonukleasen
  • Proteinspezifische Antikörperablagerung
  • die Zerstörung von Vernetzungen zwischen Protein und DNA, DNA-Reinigung

Kurz gesagt, wir entfernen das mit der DNA verknüpfte Protein aus der Lösung und lassen es die DNA „loslassen“. Aus biologischer Sicht ist das Aktionsfeld verständlich: das Studium der Genexpression, geschlossener und offener Bereiche usw. Wir werden im Folgenden über die Dinge sprechen, die Programmierer in dieser Aufgabe tun können.

Bei der ChIP-Sequenzierung (-seq) werden die resultierenden DNA-Fragmente amplifiziert (künstliche Vervielfältigung von Fragmenten) und sequenziert. Satz von Sequenzen kleiner DNA-Stücke und Studium der Bioinformatik.

Die empfangenen Daten bestehen die Qualitätskontrolle, werden gefiltert, auf eine DNA-Sequenz ausgerichtet und von speziellen Programmen verarbeitet.


DNA-Präparationsschema zur Analyse

Die Aufgabe, DNA-Bindungsstellen zu finden, wird häufig als Peak-Calling-Aufgabe bezeichnet, und die Werkzeugklasse sind Peak-Caller. Derzeit gibt es viele rechnerische Ansätze und Werkzeuge zur Analyse solcher Daten. Die Algorithmen sind jedoch nicht ideal und weisen eine Reihe von Einschränkungen auf. In diesem Bereich gibt es für Programmierer und Informatiker noch viele ungelöste Rechenprobleme.

Hier sind einige davon, die Studenten mathematischer und technischer Fachrichtungen derzeit lösen:

  • Ungleichmäßige Fragmentierung und Kontrolle

Die Verfügbarkeit von Chromatin während der Fragmentierung ist in verschiedenen Teilen des Genoms nicht gleich: Es ist in aktiv transkribierten Regionen leichter zugänglich, daher überwiegen die entsprechenden DNA-Fragmente in der Probe, was zu einem falsch positiven Ergebnis führen kann. Im Gegensatz dazu ist es weniger wahrscheinlich, dass dicht gepackte Bereiche fragmentieren und daher in der Probe weniger vertreten sind, was zu einem falsch negativen Ergebnis führen kann.

  • Anzahl der Zellen

Die klassische Technik weist eine Reihe von Einschränkungen auf. Daher wird normalerweise eine signifikante Anzahl von Zellen (etwa 10 Millionen) für ChIP-seq benötigt, was die Anwendung dieser Methode auf kleine Organismen (wie Pilze oder Protozoen) erschwert und auch die Anzahl der Experimente begrenzt, die mit einer wertvollen Probe durchgeführt werden können.

  • Datenrauschen

Während des ChIP-seq-Experiments ist es möglich, in der endgültigen Bibliothek nicht nur DNA-Fragmente zu erhalten, die mit dem Protein assoziiert waren, sondern auch andere, nicht spezifisch verwandte Fragmente. Dies kann aufgrund einer nicht idealen Spezifität des Antikörpers, Problemen beim Waschen freier DNA-Fragmente usw. auftreten. Solche Fragmente bilden das sogenannte Rauschen in den Daten. Das Problem liegt nicht nur in der Existenz von Rauschen, sondern auch in der Komplexität seiner Messung. Zur Beurteilung des Pegels gibt es eine SNR-Metrik (Signal-Rausch-Verhältnis), die durch die Anzahl und Leistung der für jede Probe erhaltenen Peaks bestimmt wird. Ein hohes SNR garantiert jedoch nicht die korrekte Bestimmung der Bindungsstellen, sondern spiegelt lediglich das Vorhandensein einer großen Anzahl von Genomregionen wider.die ausgerichtet sind (auf dem Chromosom an dieser Stelle stimmt die Sequenz mit der gewünschten überein) viele Reads - kleine DNA-Fragmente.

Problemlösungsoptionen


Ein Teil dieser Aufgaben wurde von Studenten des Instituts für Bioinformatik unter der Leitung von Oleg Shpynov von JetBrains Research im Rahmen von Semesterforschungsprojekten gelöst.
Lautes Spitzengespräch.
Studentin: Chaplygina Daria



In dem Artikel „Einfluss der Sequenzierungstiefe in ChIP-seq-Experimenten“ (1) untersuchten die Autoren den Einfluss der Bibliotheksgröße (Anzahl der anfänglichen Lesevorgänge) auf die Ergebnisse von Spitzensuchalgorithmen. Sie erstellten künstliche Datensätze für verschiedene Arten von Histonmodifikationen durch Zufallsstichproben aus realen Experimenten. Je schlechter die Bibliothek ist, desto schwieriger ist es für die Algorithmen, Peaks zu finden. Die Ergebnisse sind zwischen verschiedenen Methoden inkonsistent. Sie stellten jedoch auch fest, dass bei Verwendung des gleichen Werkzeugs die Koordination zwischen biologischen Replikaten verloren geht. In einem Semesterprojekt haben wir den Einfluss von Rauschen in den Quelldaten untersucht.

Der Datensatz mit einem kontrollierten Geräuschpegel wurde auf der Grundlage öffentlich verfügbarer Daten aus ChIP-seq-Experimenten vom ENCODE-Projektstandort erhaltenENCODE-Projekt . Hierfür wurden zwei Geräuschmodelle verwendet:

  1. Additives Modell. Fragmente aus zufälligen DNA-Abschnitten wurden der Quelldatei mit "sauberen Daten" hinzugefügt. Der Anteil zufälliger Fragmente lag zwischen 0% und 90%.
  2. Probabilistisches Modell. Für jedes Experiment wurde mit dem Tulip-Tool ein mathematisches Modell erstellt. Mit seiner Hilfe wurde ein völlig neues Experiment erstellt, dessen Parameter - der Prozentsatz der Fragmente, die sich innerhalb der DNA-Protein-Bindungsstellen befinden - zwischen 10% und 0,5% variierten.

Probabilistisches Modell. Für jedes Experiment wurde mit dem Tulip-Tool ein mathematisches Modell erstellt. Mit seiner Hilfe wurde ein völlig neues Experiment erstellt, dessen Parameter - der Prozentsatz der Fragmente, die sich innerhalb der DNA-Protein-Bindungsstellen befinden - zwischen 10% und 0,5% variierten.


Visualisierung von Datenänderungen , wenn ein Wahrscheinlichkeitsrauschmodell der Anwendung

auf dem erhaltenen Datensatz analysierten wir drei Algorithmen: MACS2 (2), SICER (3) und SPAN . (Ein Algorithmus , der von JetBrains Research entwickelte Es basiert auf halb beaufsichtigtenmaschinelles Lernen). Wie sich herausstellte, kann man mit einem festen SNR die erwartete Genauigkeit und Vollständigkeit des Satzes von Peaks vorhersagen, die vom Algorithmus gefunden werden. Bei einem hohen Rauschpegel (oder einem niedrigen SNR): MACS2 und SICER finden fast keine Spitzen, während SPAN die stabilsten Ergebnisse in Bezug auf eine Kombination von Indikatoren zeigt.



Genauigkeit und Vollständigkeit von Spitzensuchalgorithmen bei kontrolliertem Rauschpegel

Wir haben untersucht, wie sich im Verlauf des Rauschens zwei Metriken der Datenqualität ändern: das SNR und der Prozentsatz der Fragmente innerhalb der Peaks (FRIP - Fraction of Reads In Peaks). Die Messungen zeigten, dass bei gleichem SNR der Anteil der Fragmente pro Region der DNA-Protein-Wechselwirkung signifikant variieren kann (in einigen Fällen betrug der Unterschied bis zu 50%). Bestehende Standards und Empfehlungen zur Bewertung der Qualität dieser ChIP-seq-Experimente sind unvollständig, und neue integrierte Ansätze sind erforderlich.
Im Rahmen der Arbeit haben wir auch Pipelines für die halbautomatische Durchführung solcher Experimente entwickelt.

Implementierung von Ansätzen und Quellcode:

github.com/DaryaChaplygina/NoisyPeakCalling ,

github.com/DaryaChaplygina/NoisyPeakCalling2 .

Tiefes Lernen zur Rettung!
Studentin: Daria Balashova

Eine der Einschränkungen der klassischen ChIP-seq-Methode ist die große Menge an notwendigem Zellmaterial, die das Experiment beispielsweise bei seltenen Zellpopulationen oder bei mehreren Messungen für eine biologische Probe nicht zulässt. Die neue ULI-Methode (Ultra-Low-Input) von ChIP-seq (4) benötigt deutlich weniger Material - 100.000 Zellen sind ausreichend -, weist jedoch eine größere Variabilität und einen größeren Rauschpegel in den Daten auf.

Die Verwendung von Methoden des tiefen maschinellen Lernens gewinnt in der Bioinformatik zunehmend an Beliebtheit und zeigt hervorragende Ergebnisse bei der Lösung von Problemen wie der Verarbeitung biomedizinischer Bilder. In der Arbeit „Entrauschen des genomweiten Histons ChIP-seq mit Faltungs-Neuronalen Netzen“ (5) schlugen die Autoren einen Algorithmus vorCoda ist eine Methode zur Verbesserung der Qualität von ChIP-seq-Daten basierend auf Faltungs-Neuronalen Netzen. Sie haben ein tiefes neuronales Netzwerk erstellt und trainiert, um nicht nur Daten von schlechter Qualität zu verbessern, sondern auch Spitzen in ihnen zu finden.

Im Rahmen dieses Projekts wurde der ursprüngliche Algorithmus für ULI ChIP-seq-Daten angepasst. Unter Verwendung der Ergebnisse des vorherigen Projekts und der ULI-ChIP-seq-Daten aus dem Artikel „Epigenetische Veränderungen in alternden menschlichen Monozyten“ (6) analysierten wir so wichtige Eigenschaften des Algorithmus wie die Verbesserung der Qualitätsmetriken, beispielsweise des SNR. Als Ergebnis wurde der DCNN- Algorithmus erstellt . - Faltungs-Neuronales Netz zur automatischen Verbesserung der Datenqualität auf der Grundlage des Signal-Rausch-Verhältnisses bei biologischen Wiederholungen. Wenn die Verbesserung und Signalreinigung recht gut funktioniert, ist die Suche nach Bindungsstellen von Proteinen mit DNA unter Verwendung von Deep-Learning-Methoden immer noch ein ungelöstes Problem, da bestehende Ansätze eine große und qualitativ hochwertige Trainingsprobe erfordern.


Schematische Darstellung der Anwendung des Faltungsnetzwerks DCNN

Implementierung des Ansatzes und des Quellcodes: github.com/dashabalashova/Denoising_CNN .

Anstelle eines Nachwortes


Mit der Bioinformatik können Sie die Ansätze von Programmierern auf biologische Daten anwenden und neue Erkenntnisse gewinnen, die Biologen und Ärzten helfen, Menschen zu untersuchen. Jetzt nimmt open Bewerbungen für die Sommerschule 2020 entgegen , die vom 27. Juli bis 1. August in St. Petersburg stattfinden wird. Es ist ideal für die Erforschung der Bioinformatik.

Für diejenigen, die sich für ein ernsthafteres Training entschieden haben, besteht die Möglichkeit, vor dem 22. Februar oder bis zum 1. März bei einem Vor- Ort-Seminar zur Systembiologie in das letzte Auto zu steigen und sich für ein Umschulungsprogramm in Bioinformatik in St. Petersburg und Moskau zu bewerben . Für diejenigen, die gerne neue Dinge lesen und entdecken, haben wir eine Liste von Büchern und Lehrbüchern über Algorithmen, Programmierung, Genetik und Biologie.



Referenzliste:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. J. Brind'Amour, S. Liu, M. Hudson, C. Chen, MM Karimi & MC Lorincz (2015). Ein natives ChIP-seq-Protokoll mit extrem geringem Input für die genomweite Profilierung seltener Zellpopulationen. Nature Communications, 6 (1), 1-8.
  5. Koh, PW, Pierson, E. & Kundaje, A. (2017). Entrauschen des genomweiten Histons ChIP-seq mit Faltungs-Neuronalen Netzen. Bioinformatics, 33 (14), i225-i233.
  6. Schukina, Bagaitkar, Shpynov et al., Im Rückblick artyomovlab.wustl.edu/aging


Autoren des Artikels:
Olga Bondareva, Institut für Bioinformatik
Oleg Shpinov , JetBrains Research
Ekaterina Vyakhhi , Institut für Bioinformatik

All Articles