48小时内可以做什么?采访BioHack 2019生物信息学黑客马拉松冠军

第四届生物信息学黑客马拉松BioHack 2020将于3月27日在圣彼得堡举行。在黑客马拉松的存在期间,来自不同国家的300多名年轻专家参加了会议,并开发了58种解决方案。领先的研究组织介绍了他们在hackathon:生理学研究所工作的项目I.P.帕夫洛娃(Pavlova),圣彼得堡国立大学细胞RAS研究所,联邦物理医学科学中心,JetBrains BioLabs,蛋白质RAS研究所,Genotek,MIPT,iBinom等。

2019年,大蒜团队获得了15万卢布的冠军奖金。在分配的48小时工作时间内,该团队创建了一个工具,可让您搜索给定结构的基因组重排。我们请该项目的策展人Dmitry Konanov讨论该项目,黑客马拉松,以及一般地说生物信息学的生命。



-告诉我,当时您是骇客马拉松的成员,当时您在做什么?
-参加黑客马拉松时,我在俄罗斯FMBA物理化学医学联邦科学与实践中心(联邦医学和生物局物理化学医学联邦科学与临床中心)的生物信息学实验室工作,在那里写了文凭。现在我继续在中心工作。

-您为什么决定参加BioHack?
-莫名其妙地发生了。截止日期已经临近-接收项目的最后一天已经过去了,实验室问我是否要参加黑客马拉松:我只需要发送项目。我在大约15分钟内写了一些东西,并发送了一个请求。



-那是您已经在实验室从事的项目吗?
-我想研究它,我开始研究它,但是还没有完成。在黑客马拉松比赛中,我们将其带到了我想带给的状态-该算法变得更加自动化。

-告诉我这个项目的想法是如何产生的。
-通常,最初的想法不是我的,而是Alexander Manolov博士。生物信息学实验室。这是当时我文凭的负责人。

众所周知,细菌的基因组具有很高的可塑性。它们中可能发生许多事件:基因从一种细菌转移到另一种细菌,它们的序列发生改变,基因组片段的插入和去除。想法是这样的:让有4个细菌基因组。每个基因组由5个基因组成:第一个XYZTF基因组,第二个XRLAF基因组,第三个XYKTF基因组和第四个XYLTF。 (图“图中的Perestroika”)。在我们的示例中,基因组中的相同字母对应于同源(可能会说相同)的基因。字母序列表示基因组中基因的序列。

我们将基因组样本中的每个基因定义为图的节点,并在依次位于样本至少一个基因组中的那些基因节点之间绘制边缘。



因此,我们获得了一个图,其中包含有关所选基因组中基因交替的所有可能变体的信息。有了这种图形结构,您就可以随心所欲地做任何事情。

我们的首要任务是搜索在所谓的基因组重排热点中出现的图表中具有较高局部参与度的区域,这些地方由于并非总是很清楚的原因,基因组在菌株之间会发生剧烈变化。我们称节点基因组复杂性附近的纠缠度。该值实质上从数字上显示了骨质疏松症在某些地区发生的频率。

-在骇客马拉松比赛中与团队一起解决的问题的实质是什么?
-在黑客马拉松比赛中,我们提出了数学上更漂亮的任务。
任何基因组重排,无论是缺失(大约染色体位点丢失),插入还是倒置(大约染色体位点基因的反向顺序),都将导致在我们的大重排图中形成某种拓扑的子图。我认为,如果我们能够找到结构上与我们感兴趣的改革相对应的特定子图,那将是很好的。这将有可能有效地找到基因组中事件发生频率更高的点,并比较不同物种和细菌属之间的频率。例如,已知基因组的某些部分禁止倒置,而倒置最常发生的区域。

纯粹的基本兴趣是查看沿着基因组的频率分布图以及其他类型的重排。如果我们谈论实际意义,那么这个故事与生物技术直接相关:我们认为,了解基因组不同片段对插入片段的敏感性后,我们可以预先假设在何处更有可能插入外源DNA的随机片段。但是我们没有检查。

甚至在黑客马拉松之前,我就用钢笔处理了一些事情,写了一个歪曲的算法,该算法会寻找一种特定的模式(由于其独特的外观,代号为Smile)。我发现了许多物种沿着基因组的频率和分布,甚至发现了一些有趣的事情,例如,在具有大量笑脸的细菌中,任何类型的重排都可能在整个基因组中发生,而在具有少数笑脸的细菌中,仅在有限的热点中出现了基因组频率的紧密积分)。当然,我想做一些更通用的事情,以便可以要求任何可能的子图进行搜索。我把这个想法带到了黑客马拉松。

经过两天的工作,我们得到了一个名为GARLIC-Finder的工具-一种用于研究给定结构的基因组重排的工具。我们编写了一种通用语言来指定要搜索的子图,但是由于此类任务很复杂,因此“正面”查找只是很小的静态子图。因此,我们增加了用户添加定制算法的能力,这些定制算法针对搜索特定模式进行了优化。在黑客马拉松比赛中,我们确定了三种模式-一对插入其间的基因(大蒜),一个基因组片段的转座(企鹅)和一个环境非常丰富的基因(蜘蛛)(图“搜索子图重排”)。大蒜是第一个,因此将其命名为我们的Tulu。它已成为首字母缩写:G基因组AR范围大号 nterfa Ç



稍后我什至利用了这一点。

-小吗?也就是说,这个项目没有比黑客马拉松更进一步吗?
-现在的问题是,我们仍处于发表有关图形和基因组复杂性的大型文章的阶段。为此主题撰写论文的人正在从事此工作。我们在夏天发送了第一个选项,但是很遗憾,它被拒绝了。前几天再次发送,已经是另一版了。如果一切顺利,也许我们将继续朝这个方向努力。

-黑客马拉松给了你什么?
-该项目已成为我论文的重要部分。新的优化思路已经出现。好吧,总的来说,我自己学到了很多新东西。

-如果不是秘密,您花了什么钱?
-戴着耳机的好球员不是秘密,:)。

-使用哪种编程语言解决问题?
-Python,仅Python。和不同的库。要使用NetworkX图,以可视化Graphviz及其与Python的绑定。好吧,经典的Matplotlib和Pandas用于处理数据。一个自写的库是gene-graph-lib

-谁在您的团队中?
-两名程序员和一名生物学家。每个人都非常有帮助。
您的全球目标是什么,为什么决定将项目发送给黑客马拉松?
我想解决问题并有效解决。我计划自己动手做,但是在这里出现了一个独特的机会,因此我决定使用它。好吧,我只是想看看骇客马拉松是什么。

- 你喜欢它吗?
-太好了,太好了!所有这些发生的组织,食物,房间,人们都很棒。完全没有什么可抱怨的。

据我所知,如果他们允许我使用本地显示器和员工设备,那就太好了-黑客马拉松在EPAM办公室举行-但是,当然,我们不允许这样做。

-您如何为骇客马拉松做准备?除了携带设备外,还需要做什么?
-致领导(大约策展人)要求准备有关该项目的1.5至2分钟的演示文稿。对于参与者来说,仔细阅读项目的条款以查看领导者对团队成员的要求很重要。可能是笔记本电脑上的人完全配备了第二个Python和策展人(例如第三个)的环境。没关系,但是重新安装环境可能会花费额外的时间,而您只需要仔细阅读就需要第三个Python。

但是就如何准备的知识而言,这里并不是所有事情都是清楚的。自然地,您需要能够使用所需的语言进行编程,并在作为项目提出的问题的上下文中摸索一下。尽管我们有一个完全不了解生物学的团队成员,但是非常有用-是他编写了用于定义子图的语言解析器,但这项任务完全落在了他的肩上。

-您已经说过组织,场所和食物。你在哪睡觉的你睡了吗
“我猜我睡了48个小时达四个小时。”我一直在现场,在昨晚我刚去酒店。

-也就是说,参与者需要为此做好心理准备。
-特别是在道德和身体上。如果一个人有准备一些可怕的会议的经验,那么当您两夜不睡觉时,这是一个很好的准备。我在学习期间遇到过这样的情况,所以我准备好了。

-您的全球目标是什么?你为什么要进行生物信息学?
-总的来说,我偶然进入了生物信息学领域。我在RAS农业科学院的学院学习。从第二年开始,那里的学生必须每天有一天去俄罗斯科学院的一所学院从事科学工作。我对IBCh RAS的提议做出了回应,却不知道该怎么做。我来到那里,结果证明我将对NGS数据和蛋白质组学进行分析。然后,我开始学习Python并了解生物信息学。他在那里工作了两年,项目似乎停滞了一段时间,我去了现在工作的地方。
我喜欢。我一直都喜欢数学和生物学,无论如何都发生了。

-您建议孩子们看什么书,课程,讲座,电影?
-圣地亚哥大学的Coursera开设了一门生物信息学算法课程,我参与了该课程的创建Pavel Pevzner,在Stepic上也是如此。我在那里解决了一些问题-非常有用。它们使您能够汲取分子生物学和编码方面的知识。大多数任务的本质是您需要编写某种简单的序列分析之类的程序。我知道生物信息学研究所举办客座讲座,可以在YouTube上观看,此外,他们还开设了关于Stepic的课程。在Python中,我忠实地阅读了Mark Lutz撰写的《学习Python》的前500页,然后阅读了文档,变更日志和实践。

最重要的是解决问题。阅读理论是没有用的,在解决问题的过程中,您会学会解决实际的问题。

-您打算今年参加黑客马拉松吗?
“是的,我想是这样。”

- 什么?还是仍然是秘密?
-有两种选择,同时可以形成想法。我不会发声。我还有整整一个月的时间。我可能会一如既往地在最后一刻给它:)

-现在,生物信息学界正在讨论什么?
-通常是爱情宣传主题。我有一位来自俄罗斯化学技术大学的学生,他为图形主题写了文凭,所以他决定在最近发表的冠状病毒及其亲属基因组上绘制图形。

-很感兴趣 我们将等待您和您的同事的新发现和新有趣的项目!

您可以 2月28日之前提交项目,并在3月5日之前通过biohack.ru注册成为参与者

All Articles