ما الذي يمكن فعله خلال 48 ساعة؟ مقابلة مع الفائز في هاكاثون المعلوماتية الحيوية BioHack 2019

يبدأ هاكاثون المعلوماتية الحيوية الرابع BioHack 2020 في 27 مارس في سان بطرسبرغ . خلال وجود الهاكاثون ، شارك فيه أكثر من 300 متخصص شاب من دول مختلفة وتم تطوير 58 حلًا. قدمت المنظمات البحثية الرائدة مشاريعها للعمل في hackathon: معهد علم وظائف الأعضاء الذي سمي على اسم IP بافلوفا ، معهد علم الخلايا RAS ، جامعة ولاية سانت بطرسبرغ ، المركز العلمي الاتحادي للطب الطبيعي ، JetBrains BioLabs ، معهد البروتين RAS ، Genotek ، MIPT ، iBinom وغيرها.

في عام 2019 ، حصل فريق Garlic على الجائزة الرئيسية التي تبلغ 150.000 روبل. لمدة 48 ساعة مخصصة للعمل ، أنشأ الفريق أداة تسمح لك بالبحث عن إعادة الترتيب الجينومي لهيكل معين. طلبنا من أمينة المشروع ، دميتري كونانوف ، التحدث عن المشروع ، الهاكاثون ، وعموما ، حياة المعلوماتية الحيوية.



- أخبرني ، ماذا كنت تفعل في تلك اللحظة عندما كنت عضوا في الهاكاثون؟
- في وقت مشاركتي في هاكاثون ، عملت في مختبر المعلوماتية الحيوية في المركز الاتحادي العلمي والعملي للطب الفيزيائي الكيميائي في FMBA في روسيا (المركز العلمي والعيادي للطب الفيزيائي الكيميائي للوكالة الطبية والبيولوجية الفيدرالية) ، كتب دبلومًا هناك. الآن أواصل العمل في المركز.

- لماذا قررت المشاركة في BioHack؟
- بطريقة ما حدث ذلك بشكل تلقائي. كان الموعد النهائي يقترب بالفعل - أحد الأيام الأخيرة لاستلام المشاريع كان ساريًا ، سألني المختبر عما إذا كنت أرغب في المشاركة في هاكاثون: كان علي فقط إرسال المشروع. كتبت شيئًا في حوالي 15 دقيقة وأرسلت طلبًا.



- إذن كان مشروعًا عملت عليه بالفعل في المختبر؟
- أردت العمل عليها ، بدأت العمل عليها ، لكنها لم تكتمل. في الهاكاثون ، قدمناها إلى الحالة التي أردت أن أحضرها - أصبحت الخوارزمية أكثر آلية.

- أخبرني كيف جاءت فكرة المشروع.
- بشكل عام ، الفكرة الأولية ليست لي ، ولكن ألكسندر مانولوف ، دكتوراه. مختبرات المعلوماتية الحيوية. هذا هو الشخص الذي كان في ذلك الوقت رئيس شهادتي.

من المعروف أن جينومات البكتيريا بلاستيكية للغاية. يمكن أن تحدث العديد من الأحداث فيها: نقل الجينات من بكتيريا إلى أخرى ، وتغيير في تسلسلها وإدخال أجزاء الجينوم وإزالتها. الفكرة هي: ليكن هناك 4 جينومات بكتيرية. يتكون كل جينوم من 5 جينات: الجينوم الأول XYZTF والجينوم XRLAF الثاني والجينوم الثالث XYKTF والرابع XYLTF. (الشكل "البيريسترويكا في الرسوم البيانية"). في مثالنا ، تتطابق نفس الحروف في الجينوم مع الجينات المتماثلة (يمكن للمرء أن يقول ، نفس). يظهر تسلسل الحروف تسلسل الجينات في الجينوم.

نحدد كل جين من عينة الجينوم كعقدة في الرسم البياني ونرسم حواف بين تلك الجينات التي تقع بشكل تسلسلي في واحد على الأقل من جينومات العينة.



وبالتالي ، نحصل على رسم بياني يحتوي على معلومات حول جميع المتغيرات المحتملة لتناوب الجينات في الجينومات المختارة. وبفضل هيكل الرسم البياني هذا ، يمكنك فعل ما تشاء قلبك.

كانت مهمتنا الأولى هي البحث عن مناطق ذات مشاركة محلية عالية في الرسوم البيانية التي تنشأ في ما يسمى النقاط الساخنة لإعادة ترتيب الجينوم - الأماكن التي يتغير فيها الجينوم بشكل مكثف من سلالة إلى سلالة لأسباب غير واضحة دائمًا. أطلقنا على مقياس التشابك بالقرب من تعقيد جينوم العقدة. تُظهر هذه القيمة بشكل أساسي عدديًا عدد المرات التي تحدث فيها البيريسترويكا في مناطق معينة.

- وما هو جوهر المشكلة التي قمت بحلها مع فريق الهاكاثون؟
- في الهاكاثون ، عرضنا مهمة أكثر جمالا رياضيا أو ما شابه.
أي إعادة ترتيب للجينوم ، سواء كان حذف (تقريبًا فقدان موقع كروموسوم) ، الإدراج أو الانعكاس (تقريبًا الترتيب العكسي لجينات موقع الكروموسوم) ، يؤدي إلى تكوين رسومات فرعية لطوبولوجيا معينة في الرسم البياني الكبير الخاص بنا لإعادة الترتيب. واعتقدت أنه سيكون من الجيد إذا تمكنا من البحث عن مخططات فرعية محددة تتوافق في الهيكل مع البيريسترويكا التي تهمنا. وهذا سيجعل من الممكن العثور على نقاط بكفاءة في الجينوم الذي تحدث فيه الأحداث في كثير من الأحيان ، ومقارنة التكرار بين الأنواع المختلفة وأجناس البكتيريا. من المعروف ، على سبيل المثال ، أن هناك أجزاء من الجينوم ممنوعة على الانقلابات ، والمناطق التي تحدث فيها معظم حالات الانقلاب.

كان الاهتمام الأساسي البحت هو النظر إلى ملفات توزيع التوزيع على طول الجينوم وأنواع أخرى من إعادة الترتيب. إذا تحدثنا عن أهمية عملية ، فإن هذه القصة ترتبط ارتباطًا مباشرًا بالتكنولوجيا الحيوية: نعتقد أنه ، مع معرفة قابلية أجزاء مختلفة من الجينوم للإدخالات ، يمكننا أن نفترض مقدمًا حيث من المرجح أن يتم إدخال جزء عشوائي من الحمض النووي الأجنبي. لكننا لم نتحقق منها.

حتى قبل هاكاثون ، تعاملت مع شيء باستخدام الأقلام ، وكتبت خوارزمية ملتوية نوعًا ما تبحث عن نمط معين (اسم الرمز Smile ، بسبب مظهره المميز). لقد وجدت تواترًا وتوزيعًا على طول الجينوم للعديد من الأنواع ، حتى أنه تم اكتشاف بعض الأشياء المضحكة ، على سبيل المثال ، في البكتيريا التي تحتوي على عدد كبير من الوجوه الضاحكة ، حدثت إعادة ترتيب من أي نوع على الأرجح على طول الجينوم بالكامل ، وفي البكتيريا التي تحتوي على عدد صغير من الوجوه الضاحكة فقط في عدد محدود من النقاط الساخنة (في تكامل وثيق في تردد الجينوم). بالطبع ، أردت أن أفعل شيئًا أكثر شمولية حتى أتمكن من طلب أي مخططات فرعية للبحث. عرضت هذه الفكرة على الهاكاثون.

نتيجة ليومين من العمل ، حصلنا على أداة تسمى GARLIC-Finder - أداة لدراسة إعادة ترتيب الجينوم لهيكل معين. لقد كتبنا لغة عالمية لتحديد الرسوم البيانية الفرعية للبحث ، ولكن نظرًا لأن هذه المهمة معقدة من NP ، فقد أصبح البحث عن "الرأس" عبارة عن رسومات فرعية صغيرة ثابتة فقط. لذلك ، أضفنا قدرة المستخدم على إضافة خوارزميات مخصصة تم تحسينها للبحث عن أنماط معينة. في الهاكاثون ، استقرنا على ثلاثة أنماط - زوج من الجينات التي يتم إدخال (الثوم) بينها ، وعمليات تبديل جزء من الجينوم (البطريق) وجين مع بيئة غنية جدًا (العنكبوت) غالبًا (الشكل "البحث عن إعادة التخطيط الفرعي"). كان الثوم هو الأول ، وبالتالي أعطى الاسم لتولو. فقد أصبح اختصار: G enome إعادة AR rangementsL الكسب الأول nterfa ج ه.



حتى أنني استفدت من هذا في وقت لاحق.

- قليل؟ أي أن هذا المشروع لم يتقدم أكثر من هاكاثون؟
- المشكلة الآن هي أننا ما زلنا في مرحلة نشر مقال كبير حول الرسوم البيانية والتعقيد الجينومي. الشخص الذي يكتب أطروحة حول هذا الموضوع يشارك في هذا. أرسلنا الخيار الأول في الصيف ، ولكن للأسف تم رفضه. أرسل في اليوم الآخر مرة أخرى ، بالفعل في إصدار آخر. إذا سارت الأمور على ما يرام ، ربما سنستمر في الحفر في هذا الاتجاه.

- ماذا أعطاك هاكاثون؟
- أصبح المشروع جزءًا كبيرًا من رسالتي. ظهرت أفكار تحسين جديدة. حسنًا ، بشكل عام ، تعلمت بنفسي الكثير من الأشياء الجديدة.

- على ماذا أنفقت المال إن لم يكن سرا؟
- ليس سرا لاعب جيد مع سماعات الرأس :).

- ما هي لغة البرمجة المستخدمة لحل المشكلة؟
- بيثون ، بيثون حصريا. والمكتبات المختلفة لها. للعمل مع الرسوم البيانية NetworkX ، لتصور Graphviz وربطه بـ Python. حسنًا ، Matplotlib و Pandas الكلاسيكيان للعمل مع البيانات. ومكتبة واحدة مكتوبة ذاتيًا هي الجين-الرسم البياني lib .

- ومن كان في فريقك؟
- مبرمجان وعالم أحياء. اتضح أن الجميع كان مفيدًا جدًا.
ما هو هدفك العالمي ، لماذا قررت إرسال المشروع إلى هاكاثون؟
كنت أرغب في حل مشكلة وحلها بشكل فعال. لقد خططت للقيام بذلك بنفسي ، ولكن هنا أتيحت فرصة فريدة ، وقررت استخدامها. حسنًا ، أردت فقط أن أرى ماهية الهاكاثون.

- هل أحببت ذلك؟
- رائع ، رائع! التنظيم ، الطعام ، الغرفة التي حدث فيها كل هذا ، الناس رائعون. لم يكن هناك شيء يشكو منه على الإطلاق.

سيكون من الجيد جدًا إذا سمحوا لي باستخدام المراقبين المحليين ومعدات الموظفين ، كما أفهمها - تم عقد هاكاثون في مكتب EPAM - ولكن بالطبع ، لم يُسمح لنا بذلك.

- كيف استعدت لحادث الهاكاثون؟ ما الذي يجب القيام به ، بالإضافة إلى أخذ المعدات الخاصة بك؟
- للقادة (القيمون على التقويم)كان هناك شرط لإعداد عرض تقديمي لمدة 1.5-2 دقيقة حول المشروع. من المهم للمشاركين قراءة شروط المشاريع بعناية لمعرفة المتطلبات التي يحتاجها القادة لأعضاء الفريق. قد يحدث أن يكون الشخص على الكمبيوتر المحمول مجهزًا بالكامل ببيئة Python الثانية ، والقيم الفني ، على سبيل المثال ، الثالث. هذا لا يهم ، ولكن قد يستغرق الأمر وقتًا إضافيًا لإعادة تثبيت البيئة ، وكان عليك فقط أن تقرأ بعناية أنك بحاجة إلى Python ثالث.

ولكن فيما يتعلق بمعرفة كيفية التحضير ، ليس كل شيء واضحًا هنا. بطبيعة الحال ، تحتاج إلى أن تكون قادرًا على البرمجة باللغات المطلوبة وأن تتعثر قليلاً في سياق المشكلة المقترحة كمشروع. على الرغم من وجود فريق في الفريق لم يكن يعرف علم الأحياء على الإطلاق ، ولكنه كان مفيدًا جدًا - كان هو من كتب محلل اللغة لتحديد الرسوم البيانية الفرعية ، إلا أن هذه المهمة تقع بالكامل على كتفيه.

- لقد تحدثت بالفعل عن المنظمة والمباني والطعام. اين تنام؟ وهل تنام على الإطلاق؟
"لمدة 48 ساعة ، نمت لمدة أربع ساعات ، على ما أظن." كنت دائمًا في الموقع ، في الليلة الماضية غادرت للتو إلى الفندق.

- أي أن المشاركين بحاجة إلى الاستعداد الذهني لذلك.
- ومعنويا وجسديا بشكل خاص. إذا كان الشخص لديه خبرة في التحضير لبعض الجلسات الرهيبة ، عندما لا تنام لمدة ليلتين ، فهذا إعداد جيد. كان لدي مثل هذه الحالات خلال دراستي ، لذلك كنت على استعداد.

- ما هو هدفك العالمي؟ لماذا تفعل المعلوماتية الحيوية؟
- بشكل عام ، دخلت عن طريق الخطأ في المعلوماتية الحيوية. درست في كلية أكاديمية العلوم الزراعية هناك ، يلتزم الطلاب ، بدءًا من السنة الثانية ، بالذهاب إلى العمل العلمي يومًا واحدًا في الأسبوع في أحد معاهد RAS. أجبت على اقتراح IBCh RAS ، دون أي فكرة عما سأفعله. جئت إلى هناك وتبين أنني سأقوم بتحليل بيانات NGS والبروتيوميات. ثم بدأت في تعلم بايثون وفهم المعلوماتية الحيوية. عمل هناك لمدة عامين ، وبدا أن المشروع قد توقف قليلاً ، وذهبت إلى حيث أعمل الآن.
احب ذلك. لطالما أحببت الرياضيات وعلم الأحياء بطريقة ما.

- ما هي الكتب والدورات والمحاضرات والأفلام التي توصي الأطفال بمشاهدتها؟
- هناك دورة عن الخوارزميات المعلوماتية الحيوية في Coursera من جامعة سان دييغو ، شاركت في إنشائهابافل Pevzner ، على Stepic كنه في نفس الوقت. لقد قمت بحل بعض المشاكل هناك - مفيدة للغاية. أنها تسمح لك بضخ المعرفة في علم الأحياء الجزيئي وفي الترميز. جوهر معظم المهام هو أنك بحاجة إلى برمجة نوع من تحليل تسلسل بسيط أو ما شابه. أعلم أن معهد المعلوماتية الحيوية يقوم بإلقاء محاضرات ضيف يمكن مشاهدتها على موقع يوتيوب ، بالإضافة إلى ذلك ، لديهم دورات حول Stepic . في بايثون ، قرأت بأمانة حوالي 500 من الصفحات الأولى لتعلم بايثون من قبل مارك لوتز ، ثم قرأت للتو الوثائق وقواعد التغيير والممارسة.

أهم شيء هو حل المشاكل. من غير المجدي قراءة النظرية ، وفي عملية حل المشكلات ، تتعلم كيفية حل المشكلات الحقيقية.

- هل تخطط للمشاركة في هاكاثون هذا العام؟
"نعم أعتقد ذلك."

- بماذا؟ أم أنه لا يزال سرا؟
- هناك خياران ، بينما يتم تشكيل الأفكار. لن أسمعها. لا يزال لدي شهر كامل. سأعطيها ، على الأرجح ، كما هو الحال دائمًا في اللحظة الأخيرة :)

- وما الذي تتم مناقشته الآن في عالم المعلوماتية الحيوية؟
- غالبا ما تحب مواضيع الضجيج. لديّ طالب من الجامعة التقنية الكيميائية الروسية يكتب دبلومًا حول موضوع الرسم البياني ، لذلك قرر إنشاء رسم بياني على الجينوم المنشور حديثًا لفيروس التاجي وأقاربه.

- مفتون. سننتظر اكتشافات جديدة ومشاريع جديدة مثيرة للاهتمام منك ومن زملائك!

يمكنك إرسال المشروع حتى 28 فبراير ، والتسجيل كمشارك حتى 5 مارس في biohack.ru .

All Articles