Analisis data ChIP-seq: dari histones ke tugas komputer

Setiap tahun, Institut Bioinformatika di St. Petersburg dan Moskow merekrut ahli biologi, matematikawan dan pemrogram untuk membenamkan diri dalam dunia bioinformatika. Ahli biologi belajar untuk memprogram dan melatih untuk mengimplementasikan ide dalam kode, dan ilmuwan komputer mempelajari biologi dan menerapkan pendekatan algoritmik untuk masalah biologis dan medis. Bagian terpenting dari pelatihan adalah proyek sains nyata. Pada artikel ini, kita akan berbicara tentang pekerjaan dan hasil para siswa Institut, yang dilakukan di bawah arahan Oleg Shpynov dari JetBrains Research pada 2019. Proyek ini dikhususkan untuk mempelajari perubahan chromatin manusia menggunakan pembelajaran mesin.


Mahasiswa informatika 2019 Institute of Bioinformatics

Apa itu urutan dan mengapa itu dibutuhkan


Keinginan untuk memuaskan rasa ingin tahu dan memahami diri sendiri, yang dimulai dengan deskripsi anatomi manusia, perlahan-lahan semakin dalam dan bergerak ke tingkat yang lebih rinci. Sel-sel darah dan interaksinya dengan parasit, mekanisme transmisi informasi herediter dan pembentukan metastasis oleh sel-sel kanker dipelajari.

Munculnya teknologi pengurutan telah memungkinkan kita untuk melangkah lebih dalam dan melihat secara langsung "di muka" pembawa informasi genetik - DNA. Dengan kata lain, asam deoksiribonukleat, yang terletak di nukleus hampir setiap sel dalam tubuh kita, bertanggung jawab atas penampilan kita, seberapa tinggi, nada suara apa yang kita ucapkan dan apakah kita bisa terkena malaria. Namun, teknologi, seperti metode biokimia, tidak tinggal diam. Kombinasi mereka memungkinkan untuk "mengungkap" mekanisme tubuh yang lebih kompleks. Mari kita selesaikan ini dengan lebih detail.

Bagaimana kita mengurutkan organisme


Teknologi pengurutan telah berubah, dan sekarang kemajuan teknologi memungkinkan, tergantung pada keinginan, mengurutkan sel-sel individual, mengawasi perubahan di dalamnya dari waktu ke waktu atau sekadar mendapatkan informasi lengkap tentang urutan pembawa informasi herediter - DNA. Bahkan, pengurutan memungkinkan Anda untuk menerjemahkan molekul biologis menjadi file teks, yang kemudian dapat Anda gunakan sebagai teks biasa. Metode sequencing modern menggunakan pendekatan "shotgun" dan menghasilkan sejumlah besar fragmen pendek. Dalam beberapa analisis, fragmen-fragmen pendek ini "dicoba" pada genom yang ada dan lihat perbedaan dalam urutan "teks".

Apa itu histones dan apa pengaruhnya


Untai DNA sangat panjang dan tidak dapat secara permanen dalam keadaan tidak terpilin - tidak nyaman dan berbahaya (ada kemungkinan kesenjangan yang lebih besar di suatu tempat). Oleh karena itu, molekul spiral (sangat kuat) dan padat, dibungkus dengan protein kompleks, seperti rambut pada pengeriting. Protein ini disebut nukleosom dan terdiri dari protein histon. Modifikasi histone adalah salah satu contoh mekanisme regulasi epigenetik yang lebih umum. Organisme itu hidup dan perlu merespons perubahan di sekitarnya. Reaksi tubuh termasuk perubahan ekspresi gen. Jika fragmen DNA di mana gen itu berada rapat dan luka pada nukleosom, maka tidak mungkin untuk sampai ke sana dan membaca informasi. Oleh karena itu, gugus fosforil dan asetil khusus digantung pada histones,apa yang disebut fosforilasi atau asetilasi terjadi. Ini menyebabkan histone "bergerak" dan memberikan akses ke fragmen DNA yang diinginkan. Tetapi nukleosom masih terikat pada DNA dan ini dapat digunakan dalam studi regulasi.


Mekanisme asetilasi dan metilasi histones ( sumber )

Sequencing Chromatin-imunopresipitasi (ChIP-seq) dan penggunaannya


Untuk mempelajari fragmen DNA yang tetap terikat pada protein, ada metode khusus: kromatin imunopresipitasi (kromatin imunopresipitasi, ChIP). Analisis ini berlangsung sebagai berikut:

  • ikatan silang reversibel antara DNA dan protein yang berinteraksi (biasanya dengan pengobatan formaldehida)
  • Isolasi dan fragmentasi DNA oleh USG atau endonukleas
  • deposisi antibodi spesifik protein
  • penghancuran ikatan silang antara protein dan DNA, pemurnian DNA

Singkatnya, kami menghapus protein yang terhubung ke DNA dari larutan dan membuatnya "melepaskan" DNA. Dari sudut pandang biologis, bidang tindakan dapat dimengerti: studi tentang ekspresi gen, area tertutup dan terbuka, dll. Kami akan berbicara tentang hal-hal yang dapat dilakukan oleh programmer dalam tugas di bawah ini.

Dalam kasus sekuensing ChIP (-seq), fragmen DNA yang dihasilkan diamplifikasi (duplikasi buatan fragmen) dan diurutkan. Kumpulan sekuens potongan kecil DNA dan pelajari bioinformatika.

Data yang diterima melewati kontrol kualitas, disaring, disejajarkan dengan urutan DNA dan diproses oleh program khusus.


Skema Persiapan DNA untuk Analisis

Tugas menemukan situs pengikatan DNA sering disebut tugas pemanggilan puncak, dan kelas alat adalah pemanggil puncak. Saat ini, ada banyak pendekatan komputasi dan alat untuk menganalisis data seperti itu, namun, algoritma tidak sempurna dan memiliki sejumlah keterbatasan. Masih ada banyak masalah komputasi yang belum terpecahkan untuk programmer dan ilmuwan komputer di bidang ini.

Berikut adalah beberapa dari mereka yang sedang diselesaikan oleh para siswa dari spesialisasi matematika dan teknis:

  • Fragmentasi dan kontrol tidak merata

Ketersediaan kromatin selama fragmentasi tidak sama di berbagai bagian genom: lebih mudah diakses di daerah yang ditranskripsi secara aktif, oleh karena itu, fragmen DNA yang sesuai akan berlaku dalam sampel, yang dapat mengarah pada hasil positif palsu. Sebaliknya, daerah dengan lapisan padat mungkin cenderung terfragmentasi dan karenanya kurang terwakili dalam sampel, yang dapat mengarah pada hasil negatif palsu.

  • Jumlah sel

Teknik klasik memiliki sejumlah keterbatasan. Jadi, biasanya sejumlah besar sel (sekitar 10 juta) diperlukan untuk ChIP-seq, yang mempersulit penerapan metode ini pada organisme kecil (seperti jamur atau protozoa), dan juga membatasi jumlah percobaan yang dapat dilakukan dengan sampel yang berharga.

  • Kebisingan data

Selama percobaan ChIP-seq, dimungkinkan untuk memperoleh di perpustakaan akhir tidak hanya fragmen DNA yang dikaitkan dengan protein, tetapi juga fragmen lain yang tidak spesifik terkait. Ini dapat terjadi karena spesifisitas antibodi yang tidak ideal, masalah dengan mencuci fragmen DNA gratis, dll. Fragmen-fragmen seperti itu membentuk apa yang disebut noise dalam data. Masalahnya tidak hanya terletak pada keberadaan kebisingan, tetapi juga pada kompleksitas pengukurannya. Untuk menilai levelnya, ada metrik rasio signal-to-noise (SNR), yang ditentukan oleh jumlah dan kekuatan puncak yang diperoleh untuk setiap sampel. Namun, SNR yang tinggi tidak menjamin penentuan lokasi pengikatan yang benar, tetapi hanya mencerminkan keberadaan sejumlah besar wilayah genom,yang disejajarkan (pada kromosom di tempat ini urutannya bertepatan dengan yang diinginkan) banyak dibaca - fragmen kecil DNA.

Opsi Pemecahan Masalah


Sebagian dari tugas-tugas ini diselesaikan oleh siswa dari Institut Bioinformatika di bawah arahan Oleg Shpynov dari JetBrains Research sebagai bagian dari proyek penelitian semester.
Panggilan puncak yang bising.
mahasiswa: Chaplygina Daria



Dalam artikel "Dampak kedalaman sekuensing dalam percobaan ChIP-seq" (1), penulis mempelajari pengaruh ukuran perpustakaan (jumlah bacaan awal) pada hasil algoritma pencarian puncak. Mereka membuat set data buatan untuk berbagai jenis modifikasi histone dengan pengambilan sampel acak dari eksperimen nyata. Seperti yang diharapkan, semakin buruk perpustakaan, semakin sulit algoritma untuk menemukan puncak, hasilnya tidak konsisten antara metode yang berbeda. Tetapi mereka juga memperhatikan bahwa, dalam hal menggunakan alat yang sama, koordinasi antara ulangan biologis hilang. Dalam proyek semester, kami menyelidiki efek kebisingan dalam data sumber.

Kumpulan data dengan tingkat kebisingan yang terkendali diperoleh berdasarkan data yang tersedia untuk umum dari eksperimen ChIP-seq dari situs proyek ENCODEProyek ENCODE . Dua model noise digunakan untuk ini:

  1. Model aditif. Fragmen dari bagian acak DNA ditambahkan ke file sumber dengan "data bersih". Proporsi fragmen acak berkisar dari 0% hingga 90%.
  2. Model Probabilistik. Untuk setiap percobaan, model matematika dibangun menggunakan alat Tulip. Dengan bantuannya, percobaan yang sama sekali baru dihasilkan, salah satu parameternya - persentase fragmen yang terletak di dalam situs pengikatan DNA-protein - bervariasi dari 10% hingga 0,5%.

Model Probabilistik. Untuk setiap percobaan, model matematika dibangun menggunakan alat Tulip. Dengan bantuannya, percobaan yang sama sekali baru dihasilkan, salah satu parameternya - persentase fragmen yang terletak di dalam situs pengikatan DNA-protein - bervariasi dari 10% hingga 0,5%.


Visualisasi perubahan data saat menerapkan model noise probabilistik

Pada set data yang diperoleh, kami menganalisis tiga algoritma: MACS2 (2), SICER (3) dan SPAN (sebuah algoritma yang dikembangkan oleh JetBrains Research. Hal ini didasarkan pada semi-diawasimetode pembelajaran mesin). Ternyata, dengan SNR tetap, seseorang dapat memprediksi akurasi yang diharapkan dan kelengkapan set puncak yang akan ditemukan oleh algoritma. Pada tingkat kebisingan yang tinggi (atau SNR rendah): MACS2 dan SICER hampir tidak menemukan puncak, sementara SPAN menunjukkan hasil paling stabil dalam hal kombinasi indikator.



Keakuratan dan kelengkapan algoritma pencarian puncak dalam tingkat kebisingan yang terkontrol

Kami mempelajari bagaimana, dalam proses noise, dua metrik perubahan kualitas data: SNR dan persentase fragmen dalam puncak (FRIP - Fraksi Reads In Peaks). Pengukuran menunjukkan bahwa untuk SNR yang sama, fraksi fragmen per wilayah interaksi DNA - protein dapat bervariasi secara signifikan (dalam beberapa kasus, perbedaannya mencapai 50%). Standar dan rekomendasi yang ada untuk menilai kualitas percobaan seq-ChIP ini tidak lengkap, dan diperlukan pendekatan terpadu baru.
Sebagai bagian dari pekerjaan, kami juga mengembangkan pipa untuk melakukan eksperimen semi-otomatis seperti itu.

Implementasi pendekatan dan kode sumber:

github.com/DaryaChaplygina/NoisyPeakCalling ,

github.com/DaryaChaplygina/NoisyPeakCalling2 .

Belajar mendalam untuk menyelamatkan!
Mahasiswa: Daria Balashova

Salah satu keterbatasan metode ChIP-seq klasik adalah jumlah besar bahan seluler yang diperlukan, yang tidak memungkinkan percobaan, misalnya, dalam kasus populasi sel langka atau dalam kasus beberapa pengukuran untuk satu sampel biologis. Metode ChIP-seq (4) Ultra-Low-Input (ULI) yang baru membutuhkan bahan yang jauh lebih sedikit - 100.000 sel cukup - tetapi memiliki variabilitas dan tingkat kebisingan yang lebih besar dalam data.

Penggunaan metode pembelajaran mesin dalam mendapatkan popularitas dalam bioinformatika, menunjukkan hasil yang sangat baik dalam memecahkan masalah seperti memproses gambar biomedis. Dalam karya "Denoising genome-wide histone ChIP-seq dengan jaringan saraf convolutional" (5), penulis mengusulkan sebuah algoritmaCoda adalah metode untuk meningkatkan kualitas data seq-ChIP berdasarkan jaringan saraf convolutional. Mereka menciptakan dan melatih jaringan saraf yang dalam tidak hanya untuk meningkatkan kualitas data yang buruk, tetapi juga untuk menemukan puncaknya.

Dalam kerangka kerja proyek ini, algoritma asli diadaptasi untuk data ULI ChIP-seq. Menggunakan temuan dari proyek sebelumnya dan data ULI ChIP-seq dari artikel "Perubahan epigenetik dalam penuaan monosit manusia" (6), kami menganalisis karakteristik penting dari algoritma seperti meningkatkan kualitas metrik, misalnya, SNR. Akibatnya, algoritma DCNN dibuat . - jaringan saraf convolutional untuk secara otomatis meningkatkan kualitas data berdasarkan rasio signal-to-noise dalam kasus pengulangan biologis. Jika perbaikan dan pemurnian sinyal bekerja dengan baik, maka pencarian situs pengikatan protein dengan DNA menggunakan metode pembelajaran yang mendalam masih merupakan masalah yang belum terselesaikan, karena pendekatan yang ada membutuhkan sampel pelatihan yang besar dan berkualitas tinggi.


Representasi skematis dari penerapan jaringan saraf convolutional DCNN

Implementasi pendekatan dan kode sumber: github.com/dashabalashova/Denoising_CNN .

Alih-alih kata penutup


Bioinformatika memungkinkan Anda menerapkan pendekatan pemrogram pada data biologis dan mendapatkan pengetahuan baru yang akan membantu ahli biologi dan dokter untuk mempelajari manusia. Sekarang terbuka menerima aplikasi untuk sekolah musim panas 2020 , yang akan diadakan di St. Petersburg dari 27 Juli hingga 1 Agustus. Ini sangat ideal untuk menjelajahi bioinformatika.

Bagi mereka yang telah memutuskan pelatihan yang lebih serius - ada kesempatan untuk melompat ke mobil terakhir dan mendaftar untuk program pelatihan ulang dalam bioinformatika di St. Petersburg dan Moskow sebelum 22 Februari atau sampai 1 Maret di seminar di tempat mengenai biologi sistem .

Bagi mereka yang suka membaca dan menemukan hal-hal baru, kami memiliki daftar buku dan buku teks tentang algoritma, pemrograman, genetika dan biologi.

Bibliografi:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour, J., Liu, S., Hudson, M., Chen, C., Karimi, MM, & Lorincz, MC (2015). Protokol ChIP-seq asli masukan ultra-rendah untuk profil luas genom populasi sel langka. Komunikasi alam, 6 (1), 1-8.
  5. Koh, PW, Pierson, E., & Kundaje, A. (2017). Denoising lebar genom ChIP-seq dengan jaringan saraf convolutional. Bioinformatika, 33 (14), i225-i233.
  6. Schukina, Bagaitkar, Shpynov et al., Dalam ulasan, artyomovlab.wustl.edu/aging


Penulis artikel:
Olga Bondareva, Institut Bioinformatika
Oleg Shpinov , Penelitian JetBrains
Ekaterina Vyakhhi , Institut Bioinformatika

All Articles