चिप-सीक डेटा विश्लेषण: हिस्टोन से कंप्यूटर कार्यों के लिए

हर साल, सेंट पीटर्सबर्ग और मास्को में जैव सूचना विज्ञान संस्थान जीवविज्ञानियों की दुनिया में खुद को विसर्जित करने के लिए जीवविज्ञानी, गणितज्ञ और प्रोग्रामर की भर्ती करता है। जीवविज्ञानी कोड में विचारों को लागू करने के लिए कार्यक्रम और प्रशिक्षित करना सीखते हैं, और कंप्यूटर वैज्ञानिक जीव विज्ञान का अध्ययन करते हैं और जैविक और चिकित्सा समस्याओं के लिए एल्गोरिथम दृष्टिकोण लागू करते हैं। प्रशिक्षण का सबसे महत्वपूर्ण हिस्सा वास्तविक विज्ञान परियोजनाएं हैं। इस लेख में, हम संस्थान के छात्रों के काम और परिणामों के बारे में बात करेंगे, जो कि 2019 में JetBrains Research से Oracle Shpynov के निर्देशन में किया गया था परियोजना मशीन सीखने का उपयोग करके मानव क्रोमेटिन में परिवर्तन के अध्ययन के लिए समर्पित है।


सूचना विज्ञान के छात्र 2019 जैव सूचना विज्ञान संस्थान

अनुक्रमण क्या है और इसकी आवश्यकता क्यों है


जिज्ञासा को संतुष्ट करने और स्वयं को समझने की इच्छा, जो मानव शरीर रचना के वर्णन के साथ शुरू हुई, धीरे-धीरे गहरा और अधिक विस्तृत स्तर तक ले गई। परजीवी के साथ रक्त कोशिकाओं और उनकी बातचीत, वंशानुगत जानकारी के संचरण के तंत्र और कैंसर कोशिकाओं द्वारा मेटास्टेस के गठन का अध्ययन किया गया था।

अनुक्रमण तकनीकों के आगमन ने हमें आनुवांशिक जानकारी के वाहक डीएनए के "चेहरे में" सीधे एक और गहराई तक जाने और देखने की अनुमति दी है। दूसरे शब्दों में, डीऑक्सीराइबोन्यूक्लिक एसिड, जो हमारे शरीर में लगभग हर कोशिका के नाभिक में स्थित है, हम कैसे दिखते हैं, कितना लंबा है, हम क्या बोलते हैं और क्या हम मलेरिया प्राप्त कर सकते हैं, इसके लिए जिम्मेदार है। हालांकि, जैव रासायनिक विधियों की तरह, प्रौद्योगिकी अभी भी खड़ा नहीं है। उनके संयोजन ने शरीर के अधिक जटिल तंत्रों को "प्रकाश में लाना" संभव बना दिया। आइए इससे अधिक विस्तार से निपटें।

हम जीवों को कैसे अनुक्रमित करते हैं


अनुक्रमण तकनीकें बदल गई हैं, और अब तकनीकी प्रगति की अनुमति देता है, इच्छाओं के आधार पर, अलग-अलग कोशिकाओं की अनुक्रमण, समय के साथ उनमें परिवर्तन देख रहा है या बस वंशानुगत जानकारी के वाहक के अनुक्रम के बारे में पूरी जानकारी प्राप्त कर रहा है - डीएनए। वास्तव में, अनुक्रमण आपको पाठ फ़ाइल में एक जैविक अणु का अनुवाद करने की अनुमति देता है, जिसे आप बाद में सादे पाठ के रूप में काम कर सकते हैं। आधुनिक अनुक्रमण विधियां "शॉटगन" दृष्टिकोण का उपयोग करती हैं और बड़ी संख्या में लघु टुकड़े उत्पन्न करती हैं। कुछ विश्लेषणों में, इन छोटे अंशों को मौजूदा जीनोम पर "आजमाया" जाता है और "पाठ" के अनुक्रम में अंतर को देखते हैं।

हिस्टोन क्या हैं और वे क्या प्रभावित करते हैं


डीएनए स्ट्रैंड बहुत लंबा है और स्थायी रूप से एक अवांछित स्थिति में नहीं हो सकता है - यह असुविधाजनक और खतरनाक है (कहीं न कहीं एक अंतराल की अधिक संभावना है)। इसलिए, अणु सर्पिल (बहुत मजबूती से मुड़ते हैं) और कॉम्पैक्ट रूप से भरे होते हैं, विशेष प्रोटीन परिसरों में लिपटे होते हैं, जैसे कि कर्लर्स पर बाल। इन प्रोटीनों को न्यूक्लियोसोम कहा जाता है और ये हिस्टोन प्रोटीन से बने होते हैं। हिस्टोन संशोधन एपिजेनेटिक विनियमन के अधिक सामान्य तंत्र का एक उदाहरण है। जीव जीवित है और आसपास के परिवर्तनों का जवाब देने की आवश्यकता है। शरीर की प्रतिक्रिया जीन अभिव्यक्ति में परिवर्तन सहित है। यदि डीएनए टुकड़ा, जिस पर जीन स्थित है, कसकर पैक किया जाता है और नाभिक पर घाव होता है, तो इसे प्राप्त करना और जानकारी पढ़ना असंभव है। इसलिए, विशेष फॉस्फोरिल और एसिटाइल समूहों को हिस्टोन पर लटका दिया जाता है,तथाकथित फास्फारिलीकरण या एसिटिलीकरण होता है। यह हिस्टोन को "स्थानांतरित" करने का कारण बनता है और वांछित डीएनए टुकड़े तक पहुंच प्रदान करता है। लेकिन न्यूक्लियोसोम अभी भी डीएनए के लिए बाध्य है और इसका उपयोग नियामक अध्ययनों में किया जा सकता है।


हिस्टोन्स के एसिटिलीकरण और मिथाइलेशन का तंत्र ( स्रोत )

क्रोमैटिन-इम्यूनोप्रूवल सीक्वेंसिंग (चिप-सीक) और इसका उपयोग


डीएनए के टुकड़े का अध्ययन करने के लिए जो प्रोटीन के लिए बाध्य रहते हैं, एक विशेष विधि है: क्रोमैटिन इम्यूनोप्रूवेरेशन (क्रोमैटिन इम्यूनोप्रेजर्वेशन, चिप)। यह विश्लेषण इस प्रकार है:

  • डीएनए और इसके परस्पर क्रिया प्रोटीन के बीच प्रतिवर्ती क्रॉसलिंकिंग (आमतौर पर फॉर्मलाडिहाइड उपचार द्वारा)
  • अल्ट्रासाउंड या एंडोन्यूक्लाइजेस द्वारा डीएनए अलगाव और विखंडन
  • प्रोटीन-विशिष्ट एंटीबॉडी बयान
  • प्रोटीन और डीएनए, डीएनए शुद्धि के बीच क्रॉस-लिंक का विनाश

संक्षेप में, हम समाधान से डीएनए से जुड़े प्रोटीन को हटाते हैं और इसे डीएनए के "लेट गो" बनाते हैं। जैविक दृष्टिकोण से, कार्रवाई का क्षेत्र समझ में आता है: जीन अभिव्यक्ति का अध्ययन, बंद और खुले क्षेत्र, आदि। हम उन चीजों के बारे में बात करेंगे जो प्रोग्रामर नीचे इस कार्य में कर सकते हैं।

चिप अनुक्रमण (-सेक) के मामले में, जिसके परिणामस्वरूप डीएनए टुकड़े बढ़े हुए हैं (टुकड़ों के कृत्रिम दोहराव) और अनुक्रम। डीएनए के छोटे टुकड़ों के अनुक्रम का सेट और जैव सूचना विज्ञान का अध्ययन।

प्राप्त डेटा गुणवत्ता नियंत्रण पास करता है, फ़िल्टर किया जाता है, एक डीएनए अनुक्रम से जुड़ा होता है और विशेष कार्यक्रमों द्वारा संसाधित किया जाता है।


विश्लेषण के लिए डीएनए तैयारी योजना

डीएनए बाइंडिंग साइटों को खोजने के कार्य को अक्सर पीक कॉलिंग कार्य कहा जाता है, और टूल क्लास पीक कॉलिंग है। फिलहाल, ऐसे डेटा का विश्लेषण करने के लिए कई कम्प्यूटेशनल दृष्टिकोण और उपकरण हैं, हालांकि, एल्गोरिदम आदर्श नहीं हैं और इनमें कई सीमाएं हैं। इस क्षेत्र में अभी भी प्रोग्रामर और कंप्यूटर वैज्ञानिकों के लिए कई अनसुलझी कम्प्यूटेशनल समस्याएं हैं।

यहां उनमें से कुछ हैं जो गणितीय और तकनीकी विशिष्टताओं के छात्र वर्तमान में हल कर रहे हैं:

  • असमान विखंडन और नियंत्रण

विखंडन के दौरान क्रोमैटिन की उपलब्धता जीनोम के विभिन्न हिस्सों में समान नहीं है: यह सक्रिय रूप से संचरित क्षेत्रों में अधिक सुलभ है, इसलिए, नमूना में संबंधित डीएनए टुकड़े प्रबल होंगे, जिससे गलत-सकारात्मक परिणाम हो सकता है। इसके विपरीत कसकर भरे हुए क्षेत्रों में विखंडन की संभावना कम हो सकती है और इसलिए नमूने में इसका कम प्रतिनिधित्व होता है, जिससे गलत नकारात्मक परिणाम हो सकते हैं।

  • कोशिकाओं की संख्या

शास्त्रीय तकनीक में कई सीमाएँ हैं। तो, आमतौर पर ChIP-seq के लिए एक महत्वपूर्ण संख्या में कोशिकाओं (लगभग 10 मिलियन) की आवश्यकता होती है, जो छोटे जीवों (जैसे कवक या प्रोटोजोआ) पर इस पद्धति के आवेदन को जटिल करता है, और उन प्रयोगों की संख्या को भी सीमित करता है जो एक मूल्यवान नमूने के साथ किए जा सकते हैं।

  • डेटा शोर

चिप-सीक प्रयोग के दौरान, अंतिम पुस्तकालय में न केवल डीएनए टुकड़े प्राप्त करना संभव है, जो प्रोटीन से जुड़े थे, बल्कि अन्य, गैर-विशेष रूप से संबंधित टुकड़े भी थे। यह एंटीबॉडी की आदर्श विशिष्टता नहीं होने के कारण हो सकता है, धुलाई मुक्त डीएनए टुकड़े के साथ समस्याएं आदि। इस तरह के टुकड़े डेटा में तथाकथित शोर बनाते हैं। समस्या न केवल शोर के अस्तित्व में है, बल्कि इसकी माप की जटिलता में भी है। इसके स्तर का आकलन करने के लिए, एक सिग्नल-टू-शोर अनुपात (एसएनआर) मीट्रिक है, जो प्रत्येक नमूने के लिए प्राप्त चोटियों की संख्या और शक्ति से निर्धारित होता है। हालांकि, एक उच्च एसएनआर बाध्यकारी साइटों के सही निर्धारण की गारंटी नहीं देता है, लेकिन केवल बड़ी संख्या में जीनोम क्षेत्रों की उपस्थिति को दर्शाता है,जो संरेखित किए गए हैं (इस स्थान पर गुणसूत्र पर अनुक्रम वांछित के साथ मेल खाता है) कई पढ़े - डीएनए के छोटे टुकड़े।

समस्या समाधान के विकल्प


इन कार्यों का एक हिस्सा सेमेस्टर अनुसंधान परियोजनाओं के हिस्से के रूप में JetBrains अनुसंधान से ओलेग Shpynov के निर्देशन में जैव सूचना विज्ञान संस्थान के छात्रों द्वारा हल किया गया था।
शोर-शराबा पुकार।
छात्र: Chaplygina डारिया



लेख में "चिप-सीक प्रयोगों में अनुक्रमण गहराई का प्रभाव" (1), लेखकों ने पीक सर्च एल्गोरिदम के परिणामों पर पुस्तकालय के आकार (प्रारंभिक रीड की संख्या) के प्रभाव का अध्ययन किया। उन्होंने वास्तविक प्रयोगों से यादृच्छिक नमूने द्वारा विभिन्न प्रकार के हिस्टोन संशोधनों के लिए कृत्रिम डेटासेट बनाए। जैसा कि उम्मीद की गई थी, पुस्तकालय जितना गरीब होगा, एल्गोरिदम के लिए चोटियों को ढूंढना उतना ही मुश्किल होगा, परिणाम विभिन्न तरीकों के बीच असंगत हैं। लेकिन उन्होंने यह भी देखा कि, एक ही उपकरण का उपयोग करने के मामले में, जैविक प्रतिकृति के बीच समन्वय खो जाता है। एक सेमेस्टर परियोजना में, हमने स्रोत डेटा में शोर के प्रभाव की जांच की।

एक नियंत्रित शोर स्तर के साथ सेट किया गया डेटा सार्वजनिक रूप से उपलब्ध डेटा के आधार पर ENCGE साइट से Chip-seq प्रयोगों से प्राप्त किया गया थाENCODE प्रोजेक्टइसके लिए दो शोर मॉडल का उपयोग किया गया था:

  1. योजक मॉडल। डीएनए के यादृच्छिक वर्गों के अंश "स्वच्छ डेटा" के साथ स्रोत फ़ाइल में जोड़े गए थे। यादृच्छिक टुकड़ों का अनुपात 0% से 90% तक था।
  2. संभाव्य मॉडल। प्रत्येक प्रयोग के लिए, ट्यूलिप उपकरण का उपयोग करके एक गणितीय मॉडल बनाया गया था। इसकी मदद से, एक पूरी तरह से नया प्रयोग उत्पन्न किया गया था, जिसमें से एक पैरामीटर था - डीएनए-प्रोटीन बाध्यकारी साइटों के अंदर स्थित टुकड़ों का प्रतिशत - 10% से 0.5% तक भिन्न।

संभाव्य मॉडल। प्रत्येक प्रयोग के लिए, ट्यूलिप उपकरण का उपयोग करके एक गणितीय मॉडल बनाया गया था। इसकी मदद से, एक पूरी तरह से नया प्रयोग उत्पन्न किया गया था, जिसमें से एक पैरामीटर था - डीएनए-प्रोटीन बाध्यकारी साइटों के अंदर स्थित टुकड़ों का प्रतिशत - 10% से 0.5% तक भिन्न।


संभाव्य शोर मॉडल

को लागू करते समय डेटा परिवर्तनों का दृश्य प्राप्त डेटा सेट पर, हमने तीन एल्गोरिदम का विश्लेषण किया: MACS2 (2), SICER (3) और SPAN (एक एल्गोरिथ्म जिसे JetBrains Research द्वारा विकसित किया गया है। यह अर्ध-पर्यवेक्षित पर आधारित है।मशीन सीखने की विधि)। जैसा कि यह निकला, एक निश्चित एसएनआर के साथ, कोई अपेक्षित सटीकता और एल्गोरिदम द्वारा पाए जाने वाले चोटियों के सेट की पूर्णता की भविष्यवाणी कर सकता है। उच्च शोर स्तर (या कम SNR) पर: MACS2 और SICER में लगभग चोटियाँ नहीं मिलती हैं, जबकि SPAN संकेतकों के संयोजन के संदर्भ में सबसे स्थिर परिणाम दिखाता है।



नियंत्रित शोर स्तर में शिखर खोज एल्गोरिदम की सटीकता और पूर्णता

हमने अध्ययन किया कि कैसे, शोर की प्रक्रिया में, डेटा गुणवत्ता में बदलाव के दो मैट्रिक्स: चोटियों के भीतर एसएनआर और टुकड़ों का प्रतिशत (एफआरआईपी - फ्रैक्चर इन रीड्स इन पॉक्स)। मापों से पता चला है कि समान एसएनआर के लिए, डीएनए के प्रति क्षेत्र के अंशों का अंश - प्रोटीन इंटरैक्शन काफी भिन्न हो सकता है (कुछ मामलों में, अंतर 50% तक था)। मौजूदा मानकों और इन Chip-seq प्रयोगों की गुणवत्ता का आकलन करने के लिए सिफारिशें अधूरी हैं, और नए एकीकृत दृष्टिकोण की आवश्यकता है।
काम के हिस्से के रूप में, हमने इस तरह के प्रयोगों को अर्ध-स्वचालित करने के लिए पाइपलाइनों का भी विकास किया।

दृष्टिकोण और स्रोत कोड का कार्यान्वयन:

github.com/DaryaChaplygina/NoisyPeakCalling ,

github.com/DaryaChaplygina/NoisyPeakCalling2

बचाव के लिए गहरी सीख!
छात्र: डारिया बालाशोवा

शास्त्रीय चिप-सीक विधि की सीमाओं में से एक बड़ी मात्रा में आवश्यक सेलुलर सामग्री है, जो प्रयोग की अनुमति नहीं देता है, उदाहरण के लिए, दुर्लभ सेल आबादी के मामले में या कई जैविक नमूने के लिए कई मापों के मामले में। नई चिप-सीक (4) अल्ट्रा-लो-इनपुट (यूएलआई) विधि में काफी कम सामग्री की आवश्यकता होती है - 100,000 कोशिकाएं पर्याप्त होती हैं - लेकिन डेटा में अधिक परिवर्तनशीलता और शोर का स्तर होता है।

गहरी मशीन शिक्षण विधियों का उपयोग जैव सूचना विज्ञान में लोकप्रियता प्राप्त कर रहा है, जैव चिकित्सा छवियों को संसाधित करने जैसी समस्याओं को हल करने में उत्कृष्ट परिणाम प्रदर्शित करता है। "जीनोम-वाइड हिस्टोन ChIP-seq के साथ दृढ़ तंत्रिका नेटवर्क" के काम में, लेखकों ने एक एल्गोरिथ्म का प्रस्ताव रखाकोडा कॉन्फिडेंशियल न्यूरल नेटवर्क पर आधारित Chip-seq डेटा की गुणवत्ता में सुधार करने का एक तरीका है। उन्होंने न केवल खराब गुणवत्ता वाले डेटा को बेहतर बनाने के लिए एक गहरी तंत्रिका नेटवर्क बनाया और प्रशिक्षित किया, बल्कि उनमें चोटियों को खोजने के लिए भी।

इस परियोजना के ढांचे में, मूल एल्गोरिथ्म को ULI ChIP-seq डेटा के लिए अनुकूलित किया गया था। पिछली परियोजना की उपलब्धियों और ULI चिप- seq डेटा से लेख "उम्र बढ़ने के मानव मोनोसाइट्स में एपिजेनेटिक परिवर्तन" (6) का उपयोग करते हुए, हमने गुणवत्ता मीट्रिक में सुधार के रूप में एल्गोरिथ्म की ऐसी महत्वपूर्ण विशेषताओं का विश्लेषण किया, उदाहरण के लिए, एसएनआर। परिणामस्वरूप, DCNN एल्गोरिथ्म बनाया गया था - जैविक प्रजनन के मामले में सिग्नल-टू-शोर अनुपात के आधार पर स्वचालित रूप से डेटा की गुणवत्ता में सुधार करने के लिए एक दृढ़ तंत्रिका नेटवर्क। यदि सुधार और सिग्नल शुद्धि काफी अच्छी तरह से काम करती है, तो गहरी शिक्षण विधियों का उपयोग करके डीएनए के साथ प्रोटीन के बाध्यकारी साइटों की खोज अभी भी एक अनसुलझी समस्या है, क्योंकि मौजूदा दृष्टिकोणों को एक बड़े और उच्च-गुणवत्ता वाले प्रशिक्षण नमूने की आवश्यकता होती है। दृष्टिकोण और स्रोत कोड के


संवेदी तंत्रिका नेटवर्क DCNN के

कार्यान्वयन का योजनाबद्ध प्रतिनिधित्व : github.com/dashabalashova/Denoising_CNN

एक आफ्टरवर्ड के बजाय


जैव सूचना विज्ञान आपको जैविक डेटा के लिए प्रोग्रामर के दृष्टिकोण को लागू करने और नए ज्ञान प्राप्त करने की अनुमति देता है जो जीव विज्ञानियों और डॉक्टरों को मनुष्यों का अध्ययन करने में मदद करेगा। अब ओपन समर स्कूल 2020 के लिए आवेदन स्वीकार कर रहा है , जो 27 जुलाई से 1 अगस्त तक सेंट पीटर्सबर्ग में आयोजित किया जाएगा। यह जैव सूचना विज्ञान की खोज के लिए आदर्श है।

उन लोगों के लिए जिन्होंने अधिक गंभीर प्रशिक्षण का निर्णय लिया है - अंतिम कार में कूदने और 22 फरवरी से पहले सेंट पीटर्सबर्ग और मॉस्को में जैव सूचना विज्ञान में रीट्रेनिंग प्रोग्राम के लिए आवेदन करने और सिस्टम बायोलॉजी पर ऑन- साइट सेमिनार में 1 मार्च तक आवेदन करने का मौका है

उन लोगों के लिए जो नई चीजों को पढ़ना और खोजना पसंद करते हैं, हमारे पास एल्गोरिदम, प्रोग्रामिंग, आनुवंशिकी और जीव विज्ञान पर पुस्तकों और पाठ्य पुस्तकों की एक सूची है

ग्रंथ सूची:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour, जे।, लियू, एस।, हडसन, एम।, चेन, सी।, करीमी, एमएम, और लॉरिंज़, एमसी (2015)। दुर्लभ सेल आबादी के जीनोम-वाइड प्रोफाइलिंग के लिए एक अल्ट्रा-कम-इनपुट देशी चिप-सीक्यू प्रोटोकॉल। प्रकृति संचार, 6 (1), 1-8।
  5. कोह, पीडब्लू, पियर्सन, ई।, और कुंडाजे, ए (2017)। जटिल तंत्रिका नेटवर्क के साथ जीनोम-वाइड हिस्टोन चिप-सीक को प्रदर्शित करना। जैव सूचना विज्ञान, 33 (14), i225-i233।
  6. शुकिना, बगैतकर, शापिनोव एट अल। समीक्षा में, artyomovlab.wustl.edu/aging


लेख के लेखक:
ओल्गा
बोंडरेवा , इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स ओलेग शापिनोव , जेटबाइन्स रिसर्च
एकातेरिना व्याखी , इंस्टीट्यूट ऑफ बायोइनफॉरमैटिक्स

All Articles