Análise de dados ChIP-seq: das histonas às tarefas do computador

Todos os anos, o Instituto de Bioinformática de São Petersburgo e Moscou recruta biólogos, matemáticos e programadores para mergulhar no mundo da bioinformática. Os biólogos aprendem a programar e treinar para implementar idéias em código, e os cientistas da computação estudam biologia e aplicam abordagens algorítmicas a problemas biológicos e médicos. A parte mais importante do treinamento são projetos científicos reais. Neste artigo, falaremos sobre o trabalho e os resultados dos alunos do Instituto, realizados sob a direção de Oleg Shpynov, da JetBrains Research, em 2019. O projeto é dedicado ao estudo de mudanças na cromatina humana usando o aprendizado de máquina.


Estudantes de informática 2019 Institute of Bioinformtics

O que é sequenciamento e por que é necessário


O desejo de satisfazer a curiosidade e entender a si mesmo, que começou com uma descrição da anatomia humana, aprofundou-se gradualmente e passou para um nível mais detalhado. Foram estudadas células sanguíneas e sua interação com parasitas, os mecanismos de transmissão de informações hereditárias e a formação de metástases pelas células cancerígenas.

O advento das tecnologias de sequenciamento nos permitiu ir mais um nível mais fundo e olhar diretamente "na cara" do portador de informação genética - DNA. Em outras palavras, o ácido desoxirribonucléico, localizado no núcleo de quase todas as células do corpo, é responsável pela aparência, pela altura, pelo timbre que falamos e pela possibilidade de contrair malária. No entanto, a tecnologia, como métodos bioquímicos, não pára. Sua combinação tornou possível "trazer à luz" mecanismos mais complexos do corpo. Vamos lidar com isso com mais detalhes.

Como sequenciamos os organismos


As tecnologias de seqüenciamento mudaram, e agora o progresso tecnológico permite, dependendo dos desejos, o sequenciamento de células separadas, observando mudanças nelas ao longo do tempo ou simplesmente obtendo informações completas sobre a sequência do portador da informação hereditária - DNA. De fato, o seqüenciamento permite converter uma molécula biológica em um arquivo de texto, com o qual você pode trabalhar como texto simples. Os métodos modernos de seqüenciamento usam a abordagem "espingarda" e produzem um grande número de fragmentos curtos. Em algumas análises, esses fragmentos curtos são “testados” nos genomas existentes e analisam as diferenças na sequência do “texto”.

O que são histonas e o que elas afetam


A fita de DNA é muito longa e não pode ficar permanentemente em estado sem torção - é inconveniente e perigosa (há uma probabilidade maior de uma lacuna em algum lugar). Portanto, a molécula espirala (torce muito fortemente) e é compactada, envolvida em complexos especiais de proteínas, como cabelos em rolos. Essas proteínas são chamadas nucleossomos e são compostas de proteínas histonas. A modificação de histonas é um exemplo de um mecanismo mais geral de regulação epigenética. O organismo está vivo e precisa responder às mudanças circundantes. A reação do corpo está incluindo a mudança na expressão gênica. Se o fragmento de DNA no qual o gene está localizado é compactado e enrolado no nucleossomo, é impossível encontrá-lo e ler as informações. Portanto, grupos fosforil e acetil especiais são pendurados em histonas,ocorre a fosforilação ou acetilação. Isso faz com que a histona "se mova" e dê acesso ao fragmento de DNA desejado. Mas o nucleossomo ainda permanece ligado ao DNA e isso pode ser usado em estudos regulatórios.


O mecanismo de acetilação e metilação de histonas ( fonte )

Sequenciação de imunoprecipitação de cromatina (ChIP-seq) e seu uso


Para estudar os fragmentos de DNA que permanecem ligados à proteína, existe um método especial: imunoprecipitação de cromatina (imunoprecipitação de cromatina, ChIP). Essa análise ocorre da seguinte maneira:

  • reticulação reversível entre o DNA e suas proteínas em interação (geralmente por tratamento com formaldeído)
  • Isolamento e fragmentação do DNA por ultrassom ou endonucleases
  • deposição de anticorpos específicos de proteínas
  • a destruição de ligações cruzadas entre proteína e DNA, purificação de DNA

Em suma, removemos a proteína ligada ao DNA da solução e a deixamos "soltar" o DNA. Do ponto de vista biológico, o campo de ação é compreensível: o estudo da expressão gênica, áreas fechadas e abertas, etc. Falaremos sobre o que os programadores podem fazer nesta tarefa abaixo.

No caso do sequenciamento de ChIP (-seq), os fragmentos de DNA resultantes são amplificados (duplicação artificial de fragmentos) e sequenciados. Conjunto de sequências de pequenos pedaços de DNA e estudo de bioinformática.

Os dados recebidos passam pelo controle de qualidade, são filtrados, alinhados a uma sequência de DNA e processados ​​por programas especiais.


Esquema de Preparação de DNA para Análise

A tarefa de encontrar locais de ligação ao DNA é freqüentemente chamada de tarefa de chamada de pico, e a classe de ferramenta é chamada de pico. No momento, existem muitas abordagens e ferramentas computacionais para analisar esses dados, no entanto, os algoritmos não são ideais e possuem várias limitações. Ainda existem muitos problemas computacionais não resolvidos para programadores e cientistas da computação nessa área.

Aqui estão alguns deles que os estudantes de especialidades matemáticas e técnicas estão solucionando:

  • Fragmentação e controle desiguais

A disponibilidade de cromatina durante a fragmentação não é a mesma em diferentes partes do genoma: é mais acessível em regiões ativamente transcritas; portanto, os fragmentos de DNA correspondentes prevalecerão na amostra, o que pode levar a um resultado falso-positivo. As áreas compactadas, em contraste, podem ter menos probabilidade de se fragmentar e, portanto, ser menos representadas na amostra, o que pode levar a um resultado negativo falso.

  • Número de células

A técnica clássica tem várias limitações. Portanto, geralmente é necessário um número significativo de células (cerca de 10 milhões) para o ChIP-seq, o que complica a aplicação desse método em pequenos organismos (como fungos ou protozoários) e também limita o número de experimentos que podem ser realizados com uma amostra valiosa.

  • Ruído de dados

Durante o experimento ChIP-seq, é possível obter na biblioteca final não apenas fragmentos de DNA associados à proteína, mas também outros fragmentos não específicos. Isso pode ocorrer devido à especificidade não ideal do anticorpo, problemas com a lavagem de fragmentos de DNA livres, etc. Tais fragmentos formam o chamado ruído nos dados. O problema reside não apenas na existência de ruído, mas também na complexidade de sua medição. Para avaliar seu nível, existe uma métrica de relação sinal-ruído (SNR), que é determinada pelo número e pela potência dos picos obtidos para cada amostra. No entanto, um alto SNR não garante a determinação correta dos locais de ligação, mas apenas reflete a presença de um grande número de regiões do genoma,que estão alinhados (no cromossomo neste local a sequência coincide com a desejada) muitas leituras - pequenos fragmentos de DNA.

Opções de resolução de problemas


Parte dessas tarefas foi resolvida por estudantes do Instituto de Bioinformática, sob a direção de Oleg Shpynov, da JetBrains Research, como parte de projetos de pesquisa semestrais.
Chamada de pico barulhenta.
aluno: Chaplygina Daria



No artigo “Impacto da profundidade de sequenciamento em experimentos ChIP-seq” (1), os autores estudaram o efeito do tamanho da biblioteca (o número de leituras iniciais) nos resultados dos algoritmos de pesquisa de pico. Eles criaram conjuntos de dados artificiais para diferentes tipos de modificações de histonas por amostragem aleatória de experimentos reais. Como esperado, quanto mais pobre a biblioteca, mais difícil é para os algoritmos encontrarem picos, e os resultados são inconsistentes entre os diferentes métodos. Mas eles também notaram que, no caso de usar a mesma ferramenta, a coordenação entre as réplicas biológicas é perdida. Em um projeto semestral, investigamos o efeito do ruído nos dados de origem.

O conjunto de dados com um nível de ruído controlado foi obtido com base em dados publicamente disponíveis de experimentos ChIP-seq no site do projeto ENCODEProjeto ENCODE . Dois modelos de ruído foram usados ​​para isso:

  1. Modelo aditivo. Fragmentos de seções aleatórias do DNA foram adicionados ao arquivo de origem com "dados limpos". A proporção de fragmentos aleatórios variou de 0% a 90%.
  2. Modelo Probabilístico. Para cada experimento, um modelo matemático foi construído usando a ferramenta Tulip. Com sua ajuda, um experimento completamente novo foi gerado, um dos parâmetros - a porcentagem de fragmentos localizados dentro dos locais de ligação às proteínas de DNA - variou de 10% a 0,5%.

Modelo Probabilístico. Para cada experimento, um modelo matemático foi construído usando a ferramenta Tulip. Com sua ajuda, um experimento completamente novo foi gerado, um dos parâmetros - a porcentagem de fragmentos localizados dentro dos locais de ligação às proteínas de DNA - variou de 10% a 0,5%.


Visualização de alterações de dados ao aplicar um modelo probabilístico de ruído

No conjunto de dados obtido, analisamos três algoritmos: MACS2 (2), SICER (3) e SPAN (um algoritmo desenvolvido pela JetBrains Research. É baseado em ferramentas semi-supervisionadasmétodo de aprendizado de máquina). Como se constatou, com um SNR fixo, é possível prever a precisão e a integridade esperadas do conjunto de picos que serão encontrados pelo algoritmo. Em alto nível de ruído (ou baixo SNR): o MACS2 e o SICER quase não encontram picos, enquanto o SPAN mostra os resultados mais estáveis ​​em termos de indicadores agregados.



Precisão e integridade dos algoritmos de pesquisa de pico em um nível de ruído controlado

Estudamos como, no processo de ruído, duas métricas de mudança na qualidade dos dados: SNR e porcentagem de fragmentos dentro de picos (FRIP - Fração de Leituras em Picos). As medidas mostraram que, para o mesmo SNR, a fração de fragmentos por região de interação DNA - proteína pode variar significativamente (em alguns casos, a diferença foi de até 50%). Os padrões e recomendações existentes para avaliar a qualidade desses experimentos com o ChIP-seq estão incompletos e são necessárias novas abordagens integradas.
Como parte do trabalho, também desenvolvemos pipelines para a condução semi-automática de tais experimentos.

Implementação de abordagens e código fonte:

github.com/DaryaChaplygina/NoisyPeakCalling ,

github.com/DaryaChaplygina/NoisyPeakCalling2 .

Aprendizagem profunda para o resgate!
aluno: Daria Balashova

Uma das limitações do método clássico ChIP-seq é a grande quantidade de material celular necessário, que não permite o experimento, por exemplo, no caso de populações celulares raras ou no caso de várias medições para uma amostra biológica. O novo método ChIP-seq (4) de entrada ultra baixa (ULI) requer significativamente menos material - 100.000 células são suficientes - mas possui maior variabilidade e nível de ruído nos dados.

O uso de métodos profundos de aprendizado de máquina está ganhando popularidade em bioinformática, demonstrando excelentes resultados na solução de problemas como o processamento de imagens biomédicas. No trabalho “Denoising histonas de todo o genoma ChIP-seq com redes neurais convolucionais” (5), os autores propuseram um algoritmoCoda é um método para melhorar a qualidade dos dados do ChIP-seq com base em redes neurais convolucionais. Eles criaram e treinaram uma rede neural profunda, não apenas para melhorar os dados de baixa qualidade, mas também para encontrar picos neles.

Na estrutura deste projeto, o algoritmo original foi adaptado para dados ULI ChIP-seq. Utilizando as realizações do projeto anterior e os dados ULI ChIP-seq do artigo “Alterações epigenéticas no envelhecimento de monócitos humanos” (6), analisamos características tão importantes do algoritmo como a melhoria das métricas de qualidade, por exemplo, SNR. Como resultado, o algoritmo DCNN foi criado . - rede neural convolucional para melhorar automaticamente a qualidade dos dados com base na relação sinal / ruído no caso de repetições biológicas. Se a melhoria e a purificação do sinal funcionam muito bem, então a busca de locais de ligação de proteínas ao DNA usando métodos de aprendizado profundo ainda é um problema não resolvido, uma vez que as abordagens existentes requerem uma amostra de treinamento grande e de alta qualidade.


Representação esquemática da aplicação da rede neural convolucional DCNN

Implementação da abordagem e código fonte: github.com/dashabalashova/Denoising_CNN .

Em vez de um posfácio


A bioinformática permite aplicar as abordagens dos programadores aos dados biológicos e obter novos conhecimentos que ajudarão biólogos e médicos a estudar seres humanos. Agora aberto está aceitando inscrições para a escola de verão 2020 , que será realizada em São Petersburgo, de 27 de julho a 1 de agosto. É ideal para explorar bioinformática.

Para aqueles que optaram por um treinamento mais sério - há a chance de entrar no último carro e solicitar um programa de reciclagem em bioinformática em São Petersburgo e Moscou antes de 22 de fevereiro ou até 1º de março em um seminário no local sobre biologia de sistemas .

Para quem gosta de ler e descobrir coisas novas, temos uma lista de livros e livros didáticos sobre algoritmos, programação, genética e biologia.

Bibliografia:


  1. Jung, Y. L., Luquette, L. J., Ho, J. W., Ferrari, F., Tolstorukov, M., Minoda, A.,… & Park, P. J. (2014). Impact of sequencing depth in ChIP-seq experiments. Nucleic acids research, 42(9), e74-e74.
  2. Zhang, Y., Liu, T., Meyer, C. A., Eeckhoute, J., Johnson, D. S., Bernstein, B. E.,… & Liu, X. S. (2008). Model-based analysis of ChIP-Seq (MACS). Genome biology, 9(9), R137.
  3. Xu, S., Grullon, S., Ge, K., & Peng, W. (2014). Spatial clustering for identification of ChIP-enriched regions (SICER) to map regions of histone methylation patterns in embryonic stem cells. In Stem Cell Transcriptional Networks (pp. 97-111). Humana Press, New York, NY.
  4. Brind'Amour, J., Liu, S., Hudson, M., Chen, C., Karimi, MM e Lorincz, MC (2015). Um protocolo ChIP-seq nativo de entrada ultra baixa para criação de perfil em todo o genoma de populações celulares raras. Comunicações da natureza, 6 (1), 1-8.
  5. Koh, PW, Pierson, E., & Kundaje, A. (2017). Cheno-histona de Denoising em todo o genoma com redes neurais convolucionais. Bioinformática, 33 (14), i225-i233.
  6. Schukina, Bagaitkar, Shpynov et al., Em revisão, artyomovlab.wustl.edu/aging


Autores do artigo:
Olga Bondareva, Instituto de Bioinformática
Oleg Shpinov , JetBrains Research
Ekaterina Vyakhhi , Instituto de Bioinformática

All Articles