ChIP-seq数据分析:从组蛋白到计算机任务

每年,圣彼得堡和莫斯科的生物信息学研究所都会招募生物学家,数学家和程序员,使他们沉浸在生物信息学的世界中。生物学家学习编程和培训以实现代码中的思想,计算机科学家学习生物学并将算法方法应用于生物学和医学问题。培训中最重要的部分是真实的科学项目。在本文中,我们将讨论在2019年JetBrains Research的Oleg Shpynov的指导下完成的研究所学生的工作和成果该项目致力于使用机器学习研究人类染色质的变化。


信息科学系学生2019年生物信息学研究所

什么是测序,为什么需要


满足好奇心和自我了解的愿望从对人体解剖学的描述开始,逐渐加深并发展到更详细的水平。研究了血细胞及其与寄生虫的相互作用,遗传信息的传递机制以及癌细胞转移的形成。

测序技术的出现使我们更深入,可以直接面对遗传信息载体-DNA。换句话说,位于人体几乎每个细胞核中的脱氧核糖核酸负责我们的容貌,身高,发声的音质以及我们是否会得疟疾。但是,技术像生化方法一样,并没有停滞不前。它们的结合使“揭示”身体的更复杂机制成为可能。让我们更详细地处理这个问题。

我们如何排序生物


测序技术已经发生了变化,现在,随着技术的进步,根据意愿,可以对单个细胞进行测序,观察它们随时间的变化,或者只是获得有关遗传信息载体-DNA序列的完整信息。实际上,测序使您可以将生物分子翻译成文本文件,然后可以将其作为纯文本使用。现代测序方法使用“ shot弹枪”方法,并产生大量的短片段。在某些分析中,这些短片段被“试戴”在现有基因组上,并观察“文本”序列的差异。

什么是组蛋白及其影响


DNA链非常长,不能永久处于未扭曲状态-不方便且危险(在某处存在缝隙的可能性更大)。因此,分子呈螺旋状(非常强烈地扭曲)并紧密堆积,将自身包裹在特殊的蛋白质复合物上,例如卷发器上的头发。这些蛋白质称为核小体,由组蛋白构成。组蛋白修饰是表观遗传调控的更一般机制的一个例子。生物体还活着,需要对周围的变化做出反应。身体的反应包括基因表达的变化。如果基因所在的DNA片段紧紧包裹并缠绕在核小体上,则不可能到达该基因并阅读信息。因此,特殊的磷酸基和乙酰基被挂在组蛋白上,发生所谓的磷酸化或乙酰化。这导致组蛋白“移动”并获得所需的DNA片段。但是,核小体仍与DNA结合,可用于监管研究。


组蛋白乙酰化和甲基化的机理来源

染色质免疫沉淀测序(ChIP-seq)及其用途


要研究仍与蛋白质结合的DNA片段,有一种特殊的方法:染色质免疫沉淀(chromatin immunoprecipitation,ChIP)。该分析如下进行:

  • DNA及其相互作用蛋白之间的可逆交联(通常通过甲醛处理)
  • 通过超声或核酸内切酶进行DNA分离和片段化
  • 蛋白特异性抗体沉积
  • 破坏蛋白质与DNA之间的交联,纯化DNA

简而言之,我们从溶液中去除与DNA连接的蛋白质,并使其“释放” DNA。从生物学的角度来看,作用的领域是可以理解的:对基因表达,封闭和开放区域等的研究。我们将在下面讨论程序员在此任务中可以做的事情。

在ChIP测序(-seq)的情况下,将扩增所得的DNA片段(片段的人工复制)并进行测序。 DNA小片段的序列集并研究生物信息学。

接收到的数据经过质量控制,经过过滤,与DNA序列比对并通过特殊程序进行处理。


DNA制备方案进行分析

查找DNA结合位点的任务通常称为峰调用任务,而工具类别是峰调用者。目前,有许多用于分析此类数据的计算方法和工具,但是,这些算法并不理想,并且存在许多局限性。对于该领域的程序员和计算机科学家而言,仍然存在许多未解决的计算问题。

以下是数学和技术专业学生正在解决的一些问题:

  • 不均匀的碎片和控制

片段化过程中染色质的可用性在基因组的不同部分是不同的:在活跃转录的区域中更容易获得,因此,相应的DNA片段将在样品中占主导地位,这可能导致假阳性结果。相反,紧密堆积的区域可能不太可能碎裂,因此在样品中的表示较少,这可能导致假阴性结果。

  • 单元数

经典技术具有许多局限性。因此,ChIP-seq通常需要大量细胞(约一千万个),这使得该方法在小型生物(例如真菌或原生动物)上的应用变得复杂,并且还限制了可以对有价值的样品进行的实验数量。

  • 资料杂讯

在ChIP-seq实验过程中,不仅可以在最终文库中获得与蛋白质相关的DNA片段,而且还可以获得其他非特异性相关的片段。这可能是由于抗体的理想特异性不理想,洗涤游离DNA片段的问题等引起的。这样的碎片在数据中形成所谓的噪声。问题不仅在于噪声的存在,还在于其测量的复杂性。为了评估其水平,有一个信噪比(SNR)度量标准,该度量标准由每个样本获得的峰的数量和功率确定。但是,高SNR不能保证正确确定结合位点,而只能反映大量基因组区域的存在,它们被比对(在该位置的染色体上序列与所需序列重合)许多读段-DNA小片段。

解决问题的选项


作为学期研究项目的一部分,由JetBrains Research的Oleg Shpynov指导的生物信息学研究所的学生解决了部分任务。
嘈杂的高峰通话。
学生:Chaplygina Daria



在文章“ ChIP-seq实验中测序深度的影响”(1)中,作者研究了文库大小(初始读取数)对峰搜索算法结果的影响。他们通过从真实实验中随机取样,为不同类型的组蛋白修饰创建了人工数据集。不出所料,库越差,算法查找峰越困难,不同方法之间的结果不一致。但是他们也注意到,在使用相同工具的情况下,生物学复制品之间的协调性丧失了。在一个学期的项目中,我们调查了源数据中噪声的影响。

具有可控噪声水平的数据集是根据来自ENCODE项目站点的ChIP-seq实验的公开数据获得的ENCODE项目为此使用了两种噪声模型:

  1. 附加模型。来自DNA随机部分的片段被添加到带有“干净数据”的源文件中。随机片段的比例为0%至90%。
  2. 概率模型。对于每个实验,都使用Tulip工具建立了数学模型。在它的帮助下,产生了一个全新的实验,其中一个参数-位于DNA-蛋白质结合位点内部的片段的百分比-从10%到0.5%不等。

概率模型。对于每个实验,都使用Tulip工具建立了数学模型。在它的帮助下,产生了一个全新的实验,其中一个参数-位于DNA-蛋白质结合位点内部的片段的百分比-从10%到0.5%不等。


应用概率噪声模型时数据变化的可视化

在获得的数据集上,我们分析了三种算法:MACS2(2),SICER(3)和SPAN(由JetBrains Research开发的算法,基于半监督)机器学习方法)。事实证明,使用固定的SNR,可以预测算法将发现的一组峰的预期准确性和完整性。在高噪声水平(或低SNR)下:MACS2和SICER几乎找不到峰值,而SPAN在指标组合方面显示出最稳定的结果。



受控噪声水平下峰值搜索算法的准确性和完整性

我们研究了在噪声过程中数据质量变化的两个指标:信噪比(SNR)和峰内碎片的百分比(FRIP-峰中读数的分数)。测量结果表明,对于相同的SNR,DNA –蛋白相互作用的每个区域中的片段比例可能会有很大差异(在某些情况下,差异高达50%)。评估这些ChIP-seq实验质量的现有标准和建议尚不完善,因此需要新的集成方法。
作为工作的一部分,我们还开发了用于半自动进行此类实验的管道。

:的方法和源代码实现

github.com/DaryaChaplygina/NoisyPeakCalling

github.com/DaryaChaplygina/NoisyPeakCalling2

深度学习救助!
学生:Daria Balashova

经典ChIP-seq方法的局限之一是大量必需的细胞物质,例如在稀少细胞群或对一个生物样品进行多次测量的情况下,该实验无法进行。新的ChIP-seq(4)超低输入(ULI)方法所需的材料明显更少-100,000个单元就足够了-但数据中的可变性和噪声水平更高。

深度机器学习方法的使用在生物信息学中正变得越来越流行,在解决诸如处理生物医学图像等问题方面显示出优异的成果。在“用卷积神经网络对全基因组组蛋白ChIP-seq进行去噪”一文中,作者提出了一种算法Coda是一种基于卷积神经网络提高ChIP-seq数据质量的方法。他们创建并训练了一个深度神经网络,不仅可以改善质量较差的数据,还可以在其中找到峰值。

在该项目的框架中,原始算法适用于ULI ChIP-seq数据。利用前一个项目的发现以及“衰老的人类单核细胞的表观遗传学变化”一文(6)中的ULI ChIP-seq数据,我们分析了算法的重要特征,例如改善了质量指标,例如SNR。结果,创建了DCNN算法 -卷积神经网络,在生物重复的情况下,基于信噪比自动提高数据质量。如果改进和信号纯化效果很好,那么使用深度学习方法寻找蛋白质与DNA的结合位点仍然是一个未解决的问题,因为现有方法需要大量高质量的训练样本。


卷积神经网络DCNN应用的示意图表示方法的

实现和源代码:github.com/dashabalashova/Denoising_CNN

而不是后记


生物信息学使您可以将程序员的方法应用于生物数据并获得新知识,这将有助于生物学家和医生研究人类。现在开放接受夏季学校2020的申请,该学校将于7月27日至8月1日在圣彼得堡举行。它是探索生物信息学的理想选择。

对于那些决定接受更严肃的培训的人-可以跳到最后一辆汽车,并在圣彼得堡和莫斯科申请生物信息学再培训计划,直到2月22日或3月1日在系统生物学务虚会上

对于那些喜欢阅读和发现新事物的人,我们提供了一系列有关算法,编程,遗传学和生物学的书籍和教科书

参考书目:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour,J.,Liu,S.,Hudson,M.,Chen,C.,Karimi,MM,&Lorincz,MC(2015)。一种超低输入的本地ChIP-seq协议,用于稀有细胞群体的全基因组分布分析。自然通讯,6(1),1-8。
  5. Koh PW,Pierson,E.和Kundaje,A.(2017年)。使用卷积神经网络对全基因组组蛋白ChIP-seq进行消噪。生物信息学,33(14),i225-i233。
  6. Schukina,Bagaitkar,Shpynov等人,综述,artyomovlab.wustl.edu / aging


文章作者:
Olga Bondareva,生物信息学研究所
Oleg Shpinov,JetBrains研究
Ekaterina Vyakhhi,生物信息学研究所

All Articles