تحليل بيانات ChIP-seq: من الهستونات إلى مهام الكمبيوتر

في كل عام ، يقوم معهد المعلوماتية الحيوية في سانت بطرسبرغ وموسكو بتجنيد علماء الأحياء وعلماء الرياضيات والمبرمجين للانغماس في عالم المعلوماتية الحيوية. يتعلم علماء الأحياء البرمجة والتدريب لتنفيذ الأفكار في التعليمات البرمجية ، ويدرس علماء الكمبيوتر علم الأحياء ويطبقون مناهج خوارزمية للمشكلات البيولوجية والطبية. أهم جزء من التدريب هو المشاريع العلمية الحقيقية. في هذه المقالة ، سنتحدث عن عمل ونتائج طلاب المعهد ، الذي تم تحت إشراف أوليغ شبينوف من JetBrains Research في عام 2019. المشروع مخصص لدراسة التغيرات في الكروماتين البشري باستخدام التعلم الآلي.


طلاب المعلوماتية 2019 معهد المعلوماتية الحيوية

ما هو التسلسل ولماذا هو مطلوب


تعمقت الرغبة في إرضاء الفضول وفهم الذات ، والتي بدأت بوصف للوصف التشريحي البشري ، تدريجياً وانتقلت إلى مستوى أكثر تفصيلاً. تمت دراسة خلايا الدم وتفاعلها مع الطفيليات وآليات نقل المعلومات الوراثية وتشكيل النقائل بواسطة الخلايا السرطانية.

لقد سمح لنا ظهور تقنيات التسلسل بالتعمق أكثر بمستوى واحد والبحث مباشرة "في وجه" ناقل المعلومات الوراثية - DNA. وبعبارة أخرى ، فإن حمض deoxyribonucleic ، الموجود في نواة كل خلية في جسمنا تقريبًا ، مسؤول عن كيفية ظهورنا وطولها وما هو صوت الصوت الذي نتحدثه وما إذا كان يمكننا الإصابة بالملاريا. ومع ذلك ، فإن التكنولوجيا ، مثل الأساليب البيوكيميائية ، لا تقف ثابتة. الجمع بينهما جعل من الممكن "تسليط الضوء" على آليات أكثر تعقيدا للجسم. دعونا نتعامل مع هذا بمزيد من التفصيل.

كيف نقوم بتسلسل الكائنات الحية


لقد تغيرت تقنيات التسلسل ، والآن يسمح التقدم التكنولوجي ، اعتمادًا على الرغبات ، بتسلسل الخلايا الفردية ، ومشاهدة التغييرات فيها بمرور الوقت أو ببساطة الحصول على معلومات كاملة حول تسلسل ناقل المعلومات الوراثية - DNA. في الواقع ، يسمح لك التسلسل بترجمة جزيء بيولوجي إلى ملف نصي ، والذي يمكنك بعد ذلك العمل كنص عادي. تستخدم طرق التسلسل الحديثة نهج "البندقية" وتنتج عددًا كبيرًا من الأجزاء القصيرة. في بعض التحليلات ، يتم "تجريب" هذه الأجزاء القصيرة على الجينومات الموجودة والنظر في الاختلافات في تسلسل "النص".

ما هي الهستونات وماذا تؤثر


حبلا DNA طويل جدًا ولا يمكن أن يكون بشكل دائم في حالة غير ملتوية - إنه غير مريح وخطير (هناك احتمال أكبر لوجود فجوة في مكان ما). لذلك ، فإن جزيئات اللوالب (تلتوي بشدة) ومعبأة بشكل مضغوط ، ملفوفة في مجمعات بروتينية خاصة ، مثل الشعر على بكرو. تسمى هذه البروتينات بالنيوكوزومات وتتكون من بروتينات الهيستون. تعديل الهيستون هو مثال على آلية أكثر عمومية للتنظيم اللاجيني. الكائن الحي على قيد الحياة ويحتاج إلى الاستجابة للتغيرات المحيطة. إن رد فعل الجسم يشمل التغيير في التعبير الجيني. إذا كانت قطعة الحمض النووي التي يوجد عليها الجين معبأة بإحكام وجُرحت على النواة ، فمن المستحيل الوصول إليها وقراءة المعلومات. لذلك ، يتم تعليق مجموعات الفسفوريل والأسيتيل الخاصة على الهستونات ،يحدث ما يسمى فسفرة أو أستلة. هذا يتسبب في "تحرك" الهيستون وإعطاء الوصول إلى جزء الحمض النووي المطلوب. ولكن لا يزال النوكليوسوم مرتبطًا بالحمض النووي ويمكن استخدامه في الدراسات التنظيمية.


آلية أستلة وميثيل الهستونات ( المصدر )

تسلسل هطول الكرومومات المناعي (ChIP-seq) واستخدامه


لدراسة شظايا الحمض النووي التي لا تزال مرتبطة بالبروتين ، هناك طريقة خاصة: التسمم المناعي بالكروماتين (التساقط المناعي للكروماتين ، ChIP). يتم هذا التحليل على النحو التالي:

  • التشابك العكسي بين الحمض النووي والبروتينات المتفاعلة (عادة عن طريق علاج الفورمالديهايد)
  • عزل وتجزئة الحمض النووي عن طريق الموجات فوق الصوتية أو إندوكلياز
  • ترسب الأجسام المضادة الخاصة بالبروتين
  • تدمير الروابط المتقاطعة بين البروتين والحمض النووي ، وتنقية الحمض النووي

باختصار ، نزيل البروتين المرتبط بالحمض النووي من المحلول ونجعله "يتخلص" من الحمض النووي. من وجهة نظر بيولوجية ، يمكن فهم مجال العمل: دراسة التعبير الجيني ، والمناطق المغلقة والمفتوحة ، وما إلى ذلك. سنتحدث عن الأشياء التي يمكن للمبرمجين القيام بها في هذه المهمة أدناه.

في حالة تسلسل ChIP (-seq) ، يتم تضخيم شظايا DNA الناتجة (تكرار اصطناعي للشظايا) وتسلسلها. مجموعة من تسلسلات قطع صغيرة من الحمض النووي ودراسة المعلوماتية الحيوية.

تمر البيانات المستلمة بمراقبة الجودة ، ويتم تصفيتها ، ومحاذاتها لتسلسل DNA ومعالجتها بواسطة برامج خاصة.


مخطط تحضير DNA للتحليل

غالبًا ما تسمى مهمة العثور على مواقع ربط الحمض النووي بمهمة الذروة ، وفئة الأداة هي المتصلون بالذروة. في الوقت الحالي ، هناك العديد من الأساليب والأدوات الحسابية لتحليل هذه البيانات ، ومع ذلك ، فإن الخوارزميات ليست مثالية ولديها عدد من القيود. لا تزال هناك العديد من المشاكل الحسابية التي لم يتم حلها للمبرمجين وعلماء الكمبيوتر في هذا المجال.

فيما يلي بعض هذه المشكلات التي يقوم الطلاب من التخصصات الرياضية والتقنية بحلها حاليًا:

  • تجزئة والتحكم غير المتكافئ

إن توافر الكروماتين أثناء التفتت ليس هو نفسه في أجزاء مختلفة من الجينوم: يمكن الوصول إليه بشكل أكبر في المناطق المنسوخة بشكل فعال ، وبالتالي ، ستسود أجزاء الحمض النووي المقابلة في العينة ، مما قد يؤدي إلى نتيجة إيجابية خاطئة. على النقيض من ذلك ، قد تكون المناطق المعبأة بإحكام أقل عرضة للتفتت وبالتالي تكون أقل تمثيلًا في العينة ، مما قد يؤدي إلى نتيجة سلبية خاطئة.

  • عدد الخلايا

التقنية الكلاسيكية لديها عدد من القيود. لذلك ، عادة ما تكون هناك حاجة إلى عدد كبير من الخلايا (حوالي 10 ملايين) لـ ChIP-seq ، مما يعقد تطبيق هذه الطريقة على الكائنات الصغيرة (مثل الفطريات أو الأوليات) ، ويحد أيضًا من عدد التجارب التي يمكن إجراؤها مع عينة قيمة.

  • ضجيج البيانات

أثناء تجربة ChIP-seq ، من الممكن الحصول في المكتبة النهائية ليس فقط على أجزاء الحمض النووي التي ارتبطت بالبروتين ، ولكن أيضًا أجزاء أخرى غير مرتبطة بشكل خاص. قد يحدث هذا بسبب عدم التحديد المثالي للجسم المضاد ، مشاكل في غسل أجزاء الحمض النووي الحر ، إلخ. تشكل هذه الأجزاء ما يسمى الضجيج في البيانات. المشكلة لا تكمن فقط في وجود الضوضاء ، ولكن أيضًا في تعقيد قياسها. لتقييم مستواه ، يوجد مقياس نسبة الإشارة إلى الضوضاء (SNR) ، والذي يتم تحديده من خلال عدد وقوة القمم التي تم الحصول عليها لكل عينة. ومع ذلك ، فإن نسبة عالية من SNR لا تضمن التحديد الصحيح لمواقع الربط ، ولكنها تعكس فقط وجود عدد كبير من مناطق الجينوم ،وهي محاذاة (على الكروموسوم في هذا المكان يتزامن التسلسل مع المطلوب) قراءات كثيرة - أجزاء صغيرة من الحمض النووي.

خيارات حل المشكلات


تم حل جزء من هذه المهام من قبل طلاب معهد المعلوماتية الحيوية تحت إشراف Oleg Shpynov من JetBrains Research كجزء من مشاريع البحث في الفصل الدراسي.
دعوة الذروة صاخبة.
الطالب: Chaplygina Daria



في مقالة "تأثير عمق التسلسل في تجارب ChIP-seq" (1) ، درس المؤلفون تأثير حجم المكتبة (عدد القراءات الأولية) على نتائج خوارزميات ذروة البحث. قاموا بإنشاء مجموعات بيانات اصطناعية لأنواع مختلفة من تعديلات الهيستون عن طريق أخذ عينات عشوائية من التجارب الحقيقية. كما هو متوقع ، كلما كانت المكتبة فقيرة ، كلما كان من الصعب على الخوارزميات العثور على قمم ، كانت النتائج غير متناسقة بين الطرق المختلفة. لكنهم لاحظوا أيضًا أنه في حالة استخدام نفس الأداة ، يتم فقدان التنسيق بين النسخ البيولوجية. في مشروع فصل دراسي ، درسنا تأثير الضوضاء في بيانات المصدر.

تم الحصول على مجموعة البيانات ذات مستوى الضجيج المتحكم به على أساس البيانات المتاحة للجمهور من تجارب ChIP-seq من موقع مشروع ENCODEمشروع ENCODE . تم استخدام نموذجين للضوضاء لهذا:

  1. نموذج مضاف. تمت إضافة أجزاء من أقسام عشوائية من DNA إلى ملف المصدر مع "بيانات نظيفة". تراوحت نسبة الأجزاء العشوائية من 0٪ إلى 90٪.
  2. نموذج احتمالي. لكل تجربة ، تم بناء نموذج رياضي باستخدام أداة توليب. بمساعدتها ، تم إنشاء تجربة جديدة تمامًا ، اختلفت إحدى المعلمات - النسبة المئوية للشظايا الموجودة داخل مواقع ربط بروتين الحمض النووي - من 10 ٪ إلى 0.5 ٪.

نموذج احتمالي. لكل تجربة ، تم بناء نموذج رياضي باستخدام أداة توليب. بمساعدتها ، تم إنشاء تجربة جديدة تمامًا ، واحدة من المعلمات - النسبة المئوية للشظايا الموجودة داخل مواقع ربط بروتين الحمض النووي - اختلفت من 10 ٪ إلى 0.5 ٪.


تصور تغيرات البيانات عند تطبيق نموذج الضجيج الاحتمالي

في مجموعة البيانات التي تم الحصول عليها ، قمنا بتحليل ثلاث خوارزميات: MACS2 (2) ، SICER (3) و SPAN (خوارزمية طورتها JetBrains Research. تستند إلى شبه خاضعة للإشرافطريقة التعلم الآلي). كما اتضح ، مع SNR ثابتة ، يمكن للمرء أن يتنبأ بالدقة المتوقعة واكتمال مجموعة القمم التي سيتم العثور عليها بواسطة الخوارزمية. عند مستوى ضوضاء مرتفع (أو انخفاض SNR): لا يجد MACS2 و SICER تقريبًا قمم ، بينما يُظهر SPAN النتائج الأكثر استقرارًا من حيث مجموعة المؤشرات.



دقة واكتمال خوارزميات البحث الذروة في مستوى ضوضاء محكم

درسنا كيف ، في عملية الضجيج ، مقياسان لتغيير جودة البيانات: نسبة الإشارة إلى الضوضاء ونسبة الأجزاء داخل القمم (FRIP - جزء من القراءة في القمم). أظهرت القياسات أنه بالنسبة لنسبة الإشارة إلى الضوضاء (SNR) نفسها ، يمكن أن يختلف جزء الشظايا لكل منطقة من التفاعل بين البروتين والبروتين بشكل كبير (في بعض الحالات ، كان الفرق يصل إلى 50٪). المعايير والتوصيات الموجودة لتقييم جودة تجارب هذه المعالجات غير مكتملة ، وهناك حاجة إلى مناهج متكاملة جديدة.
كجزء من العمل ، قمنا أيضًا بتطوير خطوط أنابيب لإجراء شبه تلقائي لإجراء مثل هذه التجارب.

تنفيذ المناهج وشفرة المصدر:

github.com/DaryaChaplygina/NoisyPeakCalling ،

github.com/DaryaChaplygina/NoisyPeakCalling2 .

التعلم العميق لإنقاذ!
الطالب: Daria Balashova

أحد القيود التي تحد من طريقة ChIP-seq الكلاسيكية هي الكمية الكبيرة من المواد الخلوية الضرورية ، والتي لا تسمح بالتجربة ، على سبيل المثال ، في حالة تجمعات الخلايا النادرة أو في حالة عدة قياسات لعينة بيولوجية واحدة. تتطلب طريقة ChIP-seq (4) Ultra-Low-Input (ULI) الجديدة مواد أقل بكثير - 100000 خلية كافية - ولكن لديها قدر أكبر من التباين ومستوى الضوضاء في البيانات.

يكتسب استخدام أساليب التعلم الآلي العميق شعبية في المعلوماتية الحيوية ، مما يدل على نتائج ممتازة في حل المشكلات مثل معالجة الصور الطبية الحيوية. في عمل "تشويه الهستون على نطاق الجينوم ChIP-seq مع الشبكات العصبية التلافيفية" (5) ، اقترح المؤلفون خوارزميةCoda هي طريقة لتحسين جودة بيانات ChIP-seq بناءً على الشبكات العصبية التلافيفية. لقد أنشأوا ودربوا شبكة عصبية عميقة ليس فقط لتحسين البيانات ذات الجودة الرديئة ، ولكن أيضًا للعثور على قمم فيها.

في إطار هذا المشروع ، تم تعديل الخوارزمية الأصلية لبيانات ULI ChIP-seq. باستخدام الإنجازات التي حققها المشروع السابق وبيانات ULI ChIP-seq من مقالة "التغيرات الجينية في الوحيدات البشرية القديمة" (6) ، قمنا بتحليل هذه الخصائص المهمة للخوارزمية مثل تحسين مقاييس الجودة ، على سبيل المثال ، SNR. نتيجة لذلك ، تم إنشاء خوارزمية DCNN. - الشبكة العصبية التلافيفية لتحسين جودة البيانات تلقائيًا بناءً على نسبة الإشارة إلى الضوضاء في حالة التكرار البيولوجي. إذا كان التحسين وتنقية الإشارات يعملان بشكل جيد تمامًا ، فإن البحث عن مواقع ملزمة للبروتينات باستخدام DNA باستخدام طرق التعلم العميق لا يزال يمثل مشكلة لم يتم حلها ، نظرًا لأن الأساليب الحالية تتطلب عينة تدريب كبيرة وعالية الجودة.


التمثيل التخطيطي لتطبيق الشبكة العصبية التلافيفية DCNN

تنفيذ النهج وشفرة المصدر: github.com/dashabalashova/Denoising_CNN .

بدلا من كلمة ختامية


تتيح لك المعلوماتية الحيوية تطبيق مناهج المبرمجين على البيانات البيولوجية واكتساب المعرفة الجديدة التي ستساعد علماء الأحياء والأطباء على دراسة البشر. مفتوح الآن قبول الطلبات للمدرسة الصيفية 2020 ، التي ستعقد في سانت بطرسبرغ من 27 يوليو إلى 1 أغسطس. إنها مثالية لاستكشاف المعلوماتية الحيوية.

بالنسبة لأولئك الذين قرروا تدريبًا أكثر جدية - هناك فرصة للقفز في السيارة الأخيرة والتقدم لبرنامج إعادة تدريب في المعلوماتية الحيوية في سانت بطرسبرغ وموسكو قبل 22 فبراير أو حتى 1 مارس في ندوة في الموقع حول بيولوجيا الأنظمة .

بالنسبة لأولئك الذين يحبون قراءة واكتشاف أشياء جديدة ، لدينا قائمة بالكتب والكتب المدرسية عن الخوارزميات والبرمجة وعلم الوراثة والبيولوجيا.

قائمة المراجع:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour، J.، Liu، S.، Hudson، M.، Chen، C.، Karimi، MM، & Lorincz، MC (2015). بروتوكول محلي أصلي منخفض المدخلات من نوع ChIP-seq للتنميط على مستوى الجينوم لمجموعات الخلايا النادرة. اتصالات الطبيعة ، 6 (1) ، 1-8.
  5. Koh ، PW ، Pierson ، E. ، & Kundaje ، A. (2017). مزج الهستون على نطاق الجينوم CHIP-seq مع الشبكات العصبية التلافيفية. المعلوماتية الحيوية ، 33 (14) ، i225-i233.
  6. Schukina، Bagaitkar، Shpynov et al.، in review، artyomovlab.wustl.edu/aging


مؤلفو المقالة:
أولغا بونداريفا ، معهد المعلوماتية الحيوية
أوليغ شبينوف ، أبحاث
جيتبراينز إيكاترينا فياخي ، معهد المعلوماتية الحيوية

All Articles