Apa yang bisa dilakukan dalam 48 jam? Wawancara dengan pemenang BioHack 2019 bioinformatika hackathon

Hackathon bioinformatika keempat BioHack 2020 dimulai pada 27 Maret di St. Petersburg . Selama keberadaan hackathon, lebih dari 300 spesialis muda dari berbagai negara berpartisipasi di dalamnya dan 58 solusi dikembangkan. Organisasi penelitian terkemuka mempresentasikan proyek mereka untuk bekerja di hackathon: Institut Fisiologi dinamai AKU P. Pavlova, Institut Sitologi RAS, Universitas Negeri St. Petersburg, Pusat Ilmiah Federal untuk Pengobatan Fisik, JetBrains BioLabs, Institut Protein RAS, Genotek, MIPT, iBinom dan lainnya.

Pada 2019, tim Bawang Putih mengambil hadiah utama 150.000 rubel. Selama 48 jam yang dialokasikan untuk bekerja, tim menciptakan alat yang memungkinkan Anda untuk mencari pengaturan genomik dari struktur yang diberikan. Kami meminta kurator proyek, Dmitry Konanov, untuk berbicara tentang proyek tersebut, hackathon dan, secara umum, kehidupan bioinformatika.



- Katakan padaku, apa yang kamu lakukan pada saat itu ketika kamu adalah anggota hackathon?
- Pada saat keikutsertaan saya dalam hackathon, saya bekerja di laboratorium bioinformatika di Pusat Ilmiah dan Praktis Federal Obat Fisik-Kimia FMBA Rusia (Pusat Ilmiah dan Klinis Federal untuk Obat-obatan Fisik-Kimia dari Badan Medis dan Biologis Federal), menulis diploma di sana. Sekarang saya terus bekerja di tengah.

- Mengapa Anda memutuskan untuk berpartisipasi dalam BioHack?
- Entah bagaimana itu terjadi begitu spontan. Tenggat waktu sudah dekat - salah satu hari terakhir menerima proyek sudah lewat, laboratorium bertanya kepada saya apakah saya ingin berpartisipasi dalam hackathon: Saya hanya harus mengirim proyek. Saya menulis sesuatu dalam waktu sekitar 15 menit dan mengirim permintaan.



- Jadi itu adalah proyek yang sudah Anda kerjakan di laboratorium?
- Saya ingin mengerjakannya, saya mulai mengerjakannya, tetapi itu belum selesai. Di hackathon, kami membawanya ke keadaan yang ingin saya bawa - algoritma telah menjadi lebih otomatis.

- Ceritakan bagaimana ide proyek muncul.
- Secara umum, ide awal bukan milik saya, tetapi Alexander Manolov, Ph.D. laboratorium bioinformatika. Ini adalah orang yang pada waktu itu adalah kepala diploma saya.

Diketahui bahwa genom bakteri sangat plastis. Banyak kejadian dapat terjadi di dalamnya: transfer gen dari satu bakteri ke bakteri lain, perubahan urutannya, penyisipan dan penghilangan fragmen genom. Idenya adalah ini: biarlah ada 4 genom bakteri. Setiap genom terdiri dari 5 gen: genom XYZTF pertama, genom XRLAF kedua, genom XYKTF ketiga, dan XYLTF keempat. (Gambar "Perestroika dalam grafik"). Dalam contoh kami, huruf-huruf yang sama dalam genom berhubungan dengan gen homolog (bisa dikatakan, sama). Urutan huruf menunjukkan urutan gen dalam genom.

Kami mendefinisikan masing-masing gen dari sampel genom sebagai simpul grafik dan menggambar tepi antara gen-gen simpul yang terletak berurutan di setidaknya satu dari genom sampel.



Dengan demikian, kami memperoleh grafik yang berisi informasi tentang semua varian yang mungkin dari pergantian gen dalam genom yang dipilih. Dan dengan struktur grafik ini Anda sudah dapat melakukan apa pun yang diinginkan hati Anda.

Tugas pertama kami adalah untuk mencari daerah dengan keterlibatan lokal yang tinggi dalam grafik yang muncul dalam apa yang disebut hot spot penyusunan ulang genom - tempat di mana, karena alasan yang tidak selalu jelas, genom berubah secara intensif dari strain ke strain. Kami menyebut ukuran keterjeratan di sekitar kompleksitas genom simpul. Nilai ini pada dasarnya menunjukkan seberapa sering perestroika terjadi di daerah tertentu.

- Dan apa inti dari masalah yang Anda pecahkan dengan tim di hackathon?
- Di hackathon kami membawa tugas yang lebih indah secara matematis atau sesuatu.
Penataan ulang genom apa pun, baik itu penghapusan (kira-kira. Kehilangan situs kromosom), penyisipan atau inversi (kira-kira urutan terbalik gen dari situs kromosom), mengarah pada pembentukan subgraph dari topologi tertentu dalam grafik besar pengaturan ulang kami. Dan saya pikir akan lebih baik jika kita dapat mencari subgraph spesifik yang sesuai dengan struktur dengan perestroika yang menarik bagi kita. Ini akan memungkinkan untuk secara efisien menemukan titik-titik dalam genom di mana peristiwa terjadi lebih sering, dan untuk membandingkan frekuensi antara berbagai spesies dan genera bakteri. Diketahui, misalnya, bahwa ada bagian genom yang dilarang untuk inversi, dan area di mana inversi paling sering terjadi.

Ketertarikan yang murni mendasar adalah untuk melihat profil distribusi frekuensi sepanjang genom dan untuk jenis pengaturan ulang lainnya. Jika kita berbicara tentang signifikansi praktis, maka kisah ini secara langsung berkaitan dengan bioteknologi: kita berpikir bahwa, mengetahui kerentanan berbagai fragmen genom terhadap sisipan, kita dapat mengasumsikan sebelumnya di mana ada kemungkinan lebih besar bahwa fragmen acak dari DNA asing akan dimasukkan. Tapi kami tidak memeriksanya.

Bahkan sebelum hackathon, saya menangani sesuatu dengan pena, menulis algoritma yang agak bengkok yang akan mencari pola tertentu (nama kode Smile, karena penampilannya yang khas). Saya menemukan frekuensi dan distribusi sepanjang genom untuk banyak spesies, bahkan beberapa hal lucu ditemukan, misalnya, pada bakteri dengan sejumlah besar smiley, penataan ulang jenis apa pun terjadi dengan kemungkinan yang sama di sepanjang seluruh genom, dan pada bakteri dengan sejumlah kecil smiley hanya dalam jumlah terbatas hot spot (di integral dekat dalam frekuensi genom). Tentu saja, saya ingin melakukan sesuatu yang lebih universal sehingga saya dapat meminta subgraph yang mungkin untuk pencarian. Saya membawa ide ini ke hackathon.

Sebagai hasil dari dua hari kerja, kami mendapat alat yang disebut GARLIC-Finder - alat untuk mempelajari penyusunan ulang genom dari struktur yang diberikan. Kami menulis bahasa universal untuk mendefinisikan subgraph untuk pencarian, tetapi karena tugas seperti itu rumit NP, tampak "langsung" ternyata hanya subgraph statis kecil. Oleh karena itu, kami menambahkan kemampuan bagi pengguna untuk menambahkan algoritme khusus yang dioptimalkan untuk pencarian pola tertentu. Di hackathon, kami menetapkan tiga pola - sepasang gen di antaranya sisipan (Bawang putih), transposisi fragmen genom (Penguin) dan gen dengan lingkungan yang sangat kaya (Laba-laba) sering terjadi (Gbr. โ€œCari pengaturan ulang subgraphโ€). Bawang putih adalah yang pertama dan karena itu memberikan nama itu ke Tulu kami. Ini telah menjadi akronim: G enome re AR rangementsL penghasilan saya nterfa C e.



Saya bahkan mengambil keuntungan dari ini sedikit kemudian.

- Sedikit? Artinya, proyek ini tidak maju lebih jauh dari hackathon?
- Sekarang masalahnya adalah kita masih pada tahap menerbitkan artikel besar tentang grafik dan kompleksitas genomik. Seseorang yang menulis disertasi tentang topik ini terlibat dalam hal ini. Kami mengirim opsi pertama di musim panas, tetapi sayangnya ditolak. Suatu hari dikirim lagi, sudah dalam edisi lain. Jika semuanya berjalan dengan baik, mungkin kita akan terus menggali ke arah itu.

- Apa yang hackathon berikan padamu?
- Proyek ini telah menjadi bagian besar dari tesis saya. Gagasan pengoptimalan baru telah muncul. Yah, secara umum, saya sendiri belajar banyak hal baru.

- Untuk apa Anda menghabiskan uang, jika bukan rahasia?
- Bukan rahasia, pemain bagus dengan headphone :).

- Bahasa pemrograman apa yang digunakan untuk menyelesaikan masalah?
- Python, secara eksklusif Python. Dan pustaka yang berbeda untuk itu. Untuk bekerja dengan grafik NetworkX, untuk memvisualisasikan Graphviz dan pengikatannya dengan Python. Nah, Matplotlib dan Pandas klasik untuk bekerja dengan data. Dan satu perpustakaan yang ditulis sendiri adalah gen-graph-lib .

- Dan siapa yang ada di tim Anda?
- Dua programmer dan satu ahli biologi. Semua orang ternyata sangat membantu.
Apa tujuan global Anda, mengapa Anda memutuskan untuk mengirim proyek ke hackathon?
Saya ingin menyelesaikan masalah dan menyelesaikannya secara efektif. Saya berencana untuk melakukannya sendiri, tetapi di sini kesempatan unik muncul, dan saya memutuskan untuk menggunakannya. Yah, aku hanya ingin melihat apa itu hackathon.

- Apakah kamu menyukainya?
- Luar biasa, luar biasa! Organisasi, makanan, ruangan tempat semua ini terjadi, orang-orangnya luar biasa. Tidak ada yang perlu dikeluhkan sama sekali.

Masih bagus jika mereka mengizinkan kami menggunakan monitor lokal, peralatan staf, seperti yang saya pahami - hackathon diadakan di kantor EPAM - tetapi, tentu saja, kami tidak diizinkan.

- Bagaimana Anda mempersiapkan hackathon? Apa yang perlu dilakukan, selain mengambil peralatan Anda?
- Kepada para pemimpin (sekitar Kurator)ada persyaratan untuk menyiapkan presentasi selama 1,5-2 menit tentang proyek. Penting bagi para peserta untuk membaca dengan cermat persyaratan proyek untuk melihat persyaratan apa yang dimiliki para pemimpin bagi anggota tim. Bisa saja seseorang di laptop dilengkapi dengan lingkungan Python kedua, dan kurator, misalnya, ketiga. Ini tidak masalah, tetapi mungkin perlu waktu ekstra untuk menginstal ulang lingkungan, dan Anda hanya perlu hati-hati membaca bahwa Anda memerlukan Python ketiga.

Namun dalam hal pengetahuan tentang bagaimana mempersiapkan, tidak semuanya jelas di sini. Tentu saja, Anda harus dapat memprogram dalam bahasa yang diperlukan dan sedikit meraba-raba dalam konteks masalah yang diusulkan sebagai proyek. Meskipun kami memiliki tim di tim yang tidak tahu biologi sama sekali, tetapi sangat berguna - dialah yang menulis pengurai bahasa untuk mendefinisikan subgraph, tugas ini sepenuhnya jatuh di pundaknya.

- Anda sudah berbicara tentang organisasi, tempat, makanan. Dimana kau tidur? Dan apakah Anda tidur sama sekali?
"Selama 48 jam, kurasa tidur empat jam, kurasa." Saya selalu di situs, pada malam terakhir saya baru saja pergi ke hotel.

- Artinya, para peserta harus siap secara mental untuk ini.
- Dan terutama secara moral dan fisik. Jika seseorang memiliki pengalaman dalam mempersiapkan beberapa sesi mengerikan, ketika Anda tidak tidur selama dua malam, ini adalah persiapan yang baik. Saya punya kasus seperti itu selama studi, jadi saya siap.

- Apa tujuan global Anda? Mengapa Anda melakukan bioinformatika?
- Secara umum, saya tidak sengaja masuk ke bioinformatika. Saya belajar di fakultas Akademi Ilmu Pertanian RAS. Di sana, siswa, mulai dari tahun kedua, diharuskan untuk pergi ke pekerjaan ilmiah satu hari seminggu di salah satu institut dari Akademi Ilmu Pengetahuan Rusia. Saya menanggapi proposal RAS IBCh, tanpa tahu apa yang harus saya lakukan. Saya datang ke sana dan ternyata saya akan melakukan analisis data NGS dan proteomik. Kemudian saya mulai belajar Python dan memahami bioinformatika. Dia bekerja di sana selama dua tahun, proyeknya agak macet, dan saya pergi ke tempat saya bekerja sekarang.
Saya suka itu. Saya selalu menyukai matematika dan biologi, entah bagaimana itu terjadi.

- Buku, kursus, kuliah, film apa yang Anda rekomendasikan untuk ditonton anak-anak?
- Ada kursus tentang algoritma bioinformatika di Coursera dari University of San Diego, dalam penciptaan yang saya ikutiPavel Pevzner , di Stepic dia juga ada. Saya memecahkan beberapa masalah di sana - cukup berguna. Mereka memungkinkan Anda untuk memompa pengetahuan baik dalam biologi molekuler maupun dalam pengkodean. Inti dari sebagian besar tugas adalah Anda perlu memprogram semacam analisis urutan sederhana atau sejenisnya. Saya tahu bahwa Institute of Bioinformatics mengadakan kuliah tamu yang dapat dilihat di YouTube, di samping itu, mereka memiliki kursus tentang Stepic . Dalam Python, saya dengan setia membaca sekitar 500 halaman pertama Belajar Python oleh Mark Lutz , dan kemudian hanya membaca dokumentasi, changelog, dan latihan.

Yang paling penting adalah menyelesaikan masalah. Tidak ada gunanya membaca teori, dan dalam proses penyelesaian masalah Anda belajar memecahkan masalah nyata.

- Apakah Anda berencana untuk berpartisipasi dalam hackathon tahun ini?
"Ya, kurasa begitu."

- Dengan apa? Atau masih rahasia?
- Ada dua opsi, sementara ide sedang dibentuk. Saya tidak akan menyuarakannya. Saya masih punya satu bulan. Saya akan memberikannya, mungkin, seperti biasa di saat terakhir :)

- Dan apa yang sekarang sedang dibahas dalam dunia bioinformatika?
- Seringkali suka tema hype. Saya memiliki seorang mahasiswa dari Universitas Teknik Kimia Rusia yang menulis diploma pada topik grafik, jadi dia memutuskan untuk membuat grafik pada genom yang baru-baru ini diterbitkan tentang coronavirus dan kerabatnya.

- Penasaran. Kami akan menunggu penemuan baru dan proyek menarik baru dari Anda dan kolega Anda!

Anda dapat mengirimkan proyek hingga 28 Februari, dan mendaftar sebagai peserta hingga 5 Maret di biohack.ru .

All Articles