Há alguns dias, Alsu Missarova, formado pela Faculdade de Mecânica e Matemática da Universidade Estadual de Moscou, PhD em biologia de sistemas (genômica funcional em levedura) na Universitat Ponepu Fabra em Barcelona, falou em nosso YouTube. Agora Alsou é pós-doutorando no laboratório de JOhn Marioni (EBI, Cambridge, Reino Unido), está envolvido com RNA-seq de célula única e integração com transcriptômica espacial.
Alsou deu uma breve introdução ao que é a bioinformática e como ela difere da biologia computacional. Compartilhamos com vocês a gravação e a transcrição da transmissão: esperamos que esta seja a introdução a toda uma série de palestrantes que trabalham com bioinformática.
Meu nome é Alsu Missarova. Pediram-me para falar sobre bioinformática - em particular, quais problemas eu resolvo, que tipo de dados eu processo, que tipo de problemas existem em biologia computacional para técnicos, para pessoas com preconceito em ciência da computação, análise de dados e assim por diante.
Eu não sou um bioinformatista, sou um biólogo computacional. Esses dois conceitos são altamente correlacionados e a linha entre eles é confusa, mas é importante entender a diferença. Para ambos, o objetivo é responder a algumas questões biológicas ou melhorar nossa compreensão de como funcionam os processos biológicos. A abordagem deles é semelhante: processamento e análise de dados de uma grande quantidade de dados que não podem ser processados com os olhos e as mãos. A diferença está na prioridade. O biólogo computacional prefere ter uma questão biológica relativamente específica e precisa entender que tipo de dados coletar. Você precisa ter acesso a esses dados, precisa ser capaz de processar, analisar, interpretar e, de fato, responder à pergunta corretamente. Quando o objetivo é a informática, trata-se, antes, da criação de algoritmos, corpos, métodos de trabalho com dados biológicos.A tarefa será colocada no topo, provavelmente, e os dados estarão em um formato mais industrial. Ou seja, eles terão um determinado formato de dados que irão processar, que precisará ser produzido para um grande número de indivíduos ou organismos, e assim por diante.
Você pode entender assim: o biólogo computacional é mais provavelmente um biólogo que pode abrir algumas bibliotecas e usar algumas ferramentas, e a bioinformática é mais provavelmente um cientista da computação que não se preocupa com biologia, que não a entende de verdade, e ele apenas trabalha com números, com strings, com dados. Na verdade, não é, claro. Isso é verdade para qualquer campo, mas quando você trabalha com dados - em qualquer campo - você absolutamente precisa entender que tipo de dados possui e de onde obtém o ruído nos dados. E haverá muito ruído nos dados biológicos que você receberá. Grosso modo, pode ser decomposto em ruído técnico e biológico. O ruído técnico vem do fato de que as máquinas que criam os dados são imperfeitas e com falhas. E o ruído biológico ocorre porque há muita variação em qualquer sistema.Mesmo entre duas células do mesmo organismo, mesmo que sejam células adjacentes da pele, haverá uma diferença biológica. É necessário distinguir o ruído técnico do ruído biológico, remover o ruído técnico e deixar o ruído biológico, e isso requer uma compreensão da biologia.
Vamos ver que tipo de dados temos em biologia. Em primeiro lugar, quando as pessoas ouvem bioinformática, pensam no sequenciamento do DNA (o que, em princípio, é justificado). Acho que todo mundo sabe o que é: é, relativamente falando, a capacidade de determinar qual sequência de DNA um organismo possui. Ou seja, o DNA é uma molécula muito longa; para humanos, é cerca de 3,1 bilhões de "letras". 4 letras - ACDH - são nucleotídeos. Conseqüentemente, as pessoas aprenderam a ler o DNA de um ser vivo. É muito legal Agora você pode, por exemplo, determinar as sequências de duas pessoas, compará-las e contrastá-las, qual é a diferença entre essas sequências e qual é a diferença entre essas pessoas, e tentar encontrar uma relação de causa e efeito. É assim que o DNA afeta o seu fenótipo, qual é a diferença entre duas pessoas. Da mesma forma, digamos em biologia computacional:você pode pegar dois organismos de espécies vizinhas, sequenciando-os da mesma maneira - determine a sequência do DNA e, de acordo, tente entender qual é a diferença entre os dois organismos e que DNA realmente a influencia.
Agora você pode ir para uma dimensão diferente e fazer a seguinte pergunta: se você pegar duas células de um organismo, de uma pessoa, qual é a diferença entre elas? Ou seja, relativamente falando, as células epiteliais da pele serão diferentes dos neurônios. Aqui, o DNA não é mais muito adequado. Existe esse axioma, que em geral é errôneo: a sequência de DNA das células de um organismo é sempre a mesma. É errôneo porque um organismo vivo é uma estrutura dinâmica; ela cresce, compartilha, morre. Nesse processo, as mutações se acumulam. O processo de replicação do DNA não é perfeito e às vezes ocorrem colapsos; O DNA se repete, mas se repete de maneira imperfeita. As mutações podem ser neutras, que não levam a nada, ou prejudiciais, que causam disfunção celular. Claro, se abstrairmos, a sequência de DNA ainda é mais ou menos idêntica entre duas células,mas eles funcionam de forma diferente. Assim, um grande número de questões biológicas visa entender qual é a diferença entre as diferentes células e o que afeta isso. A comunidade tem solicitações para este tipo de dados. Você precisa ser capaz de destacar, calcular, ler essa diferença.
É aqui que chegamos ao que eu faço. O principal (ou um dos principais) formato de dados que as pessoas usam aqui é o sequenciamento de RNA. Agora vou falar brevemente sobre o que é o RNA e sobre a evolução do sequenciamento de RNA em geral.
Esta é uma versão muito abreviada, na verdade tudo é mais complicado. Os dois pilares que sustentam a biossíntese celular são a transcrição e a tradução. DNA é uma palavra muito longa que codifica certas informações. Essas informações pela célula podem ser processadas, lidas, processadas em elementos funcionais.
As proteínas são um excelente exemplo disso. Essas são máquinas tão pequenas em uma célula que executam certas funções e fornecem vida e funcionalidade a essa célula para que funcione como deveria. As proteínas são codificadas por genes. Um gene é uma subpalavra em uma sequência de DNA. A transcrição ocorre quando uma grande máquina molecular fica em uma longa dupla hélice de uma molécula de DNA - a polimerase, que viaja através dos genes, cria cópias e as joga no citoplasma da célula. Essas cópias de DNA (não realmente cópias) são criadas em uma determinada quantidade. Consequentemente, duas células diferentes têm diferentes quantidades de RNA de genes diferentes. Para uma célula epitelial, mais gene A é necessário, para neurônios - mais gene B e um número diferente deles são produzidos. Em seguida, o RNA é processado e, então, quando está em um formato mais finito, outra máquina "senta" no fio. Respectivamente,Quando as pessoas falam sobre sequenciamento de RNA, elas se referem, relativamente falando, a calcular quanto RNA é produzido a partir de quais genes nas células. Esta é a composição de RNA, ou sequenciamento de RNA.
Na verdade, é muito legal que as pessoas tenham aprendido a fazer isso. Por muito tempo, a principal limitação dessa tecnologia era que eram necessárias muitas células para obter material de RNA. Ou seja, era preciso juntar dezenas de milhares de células (naturalmente, já inviáveis), retirar o RNA e sequenciar.
O problema é que as células costumam ser diferentes umas das outras. Haverá muita variação biológica, porque para muitos processos - por exemplo, desenvolvimento, ou imunologia, ou oncologia - haverá uma grande interação entre células de diferentes funcionalidades. E quando, digamos, uma biópsia é feita e muitas células são retiradas, uma mistura é obtida. E se você considerar apenas a expectativa desses RNAs para todas as células, perderá a variância. E você não entende e não pode estudá-los.
E, consequentemente, houve um pedido da comunidade para fazer isso no nível de célula única. E eles aprenderam a fazer isso há 10 anos. Isso é muito legal, para muitas áreas é muito importante. Você pode observar o sistema muito profundamente, ver que tipo de células estão no nível microscópico. Mas também existem limitações. Um deles é que você está perdendo suas informações espaciais. Relativamente falando, para fazer o sequenciamento de RNA, você precisa pegar um pedaço de tecido, cortá-lo em células e fazer seu RNA-seq de célula única.
Mas, de uma forma amigável, muita funcionalidade está em como as células interagem umas com as outras no espaço. E para isso eles criaram uma tecnologia especial de transcriptômica - a capacidade de medir o RNA sem perder informações espaciais.
Um dos principais truques para isso é usar um microscópio: você pega seu tecido, fixa-o - isto é, pega um conjunto de células e o fixa no microscópio. E então você envia pequenas sondas para esse tecido, que contém dois elementos: um deles é muito específico para o seu RNA e só se ligará aos genes importantes. E o segundo será uma marca fluorescente brilhante. Você pode iluminar um microscópio em uma determinada frequência da onda no tecido e pode determinar quantos vaga-lumes nas células se acenderão. Conseqüentemente, haverá muitas moléculas de RNA. Na verdade, as tarefas que estou realizando estão na junção da transcriptômica especial e do sequenciamento de RNA de célula única. Relativamente falando, aqui estou eu fazendo desenvolvimento, olhando para ratinhos; Eu tenho dados sobre uma única célula e transcriptômica especial,e estou tentando combinar as células que vejo no contexto especial com aquelas que vejo no RNA-seq de célula única.
Passarei para problemas que, em princípio, podem ser do interesse de técnicos e engenheiros de ML. Eu identifiquei três tipos de tarefas que estão atualmente em demanda, e todas elas estão no campo da medicina; a medicina hoje recebe muitos recursos, muito dinheiro, muitos dados.
O primeiro tipo de tarefa é a descoberta de medicamentos. Existe uma doença, ela precisa ser curada, para isso é preciso encontrar um medicamento. Como resumir esta tarefa com mais detalhes; você precisa encontrar a composição de uma substância química que pode ser colocada em uma pílula ou cápsula, enviada ao corpo, e depois disso as moléculas se ligarão especificamente a essas proteínas, aqueles alvos que, se seu estado for modificado, mudarão o estado da doença - relativamente falando, cura.
Existem vários estágios aqui. Um deles é a identificação / validação do alvo. É preciso, de alguma forma, ser capaz de prever quais moléculas precisam ser ligadas para que o estado da doença mude. Para isso, um grande conjunto de dados é coletado: você pega pessoas doentes, você pega pessoas saudáveis, mede muitos parâmetros diferentes delas. Você está sequenciando DNA, RNA, transcriptômica, proteômica - o estado das proteínas.
A seguir, você tenta determinar quais parâmetros das células de pessoas doentes se relacionam especificamente com pessoas doentes e quais com pessoas saudáveis. Ou seja, tentar determinar quais moléculas são potencialmente correlacionadas com doenças. Isso é por um lado. Por outro lado, você ainda precisa encontrar essas moléculas que possam ser drogadas - isto é, que tenham o potencial de se ligar a substâncias químicas ativas que você envia ao corpo para curar. Aqui você precisa medir muitos parâmetros: ligação, dobramento de proteína e assim por diante.
Para isso, agora é usado o aprendizado de máquina ativo. Ou seja, você olha para diferentes compostos de proteína e tenta prever, com base em alvos conhecidos, se um alvo específico será bom. Além disso, deve-se também sintetizar a droga correta. Ou seja, você precisa encontrar uma composição química da molécula que possa se ligar especificamente à proteína com a qual você precisa entrar em contato e, em princípio, entrar no corpo, se dissolver na água e assim por diante. Existem muitos recursos que precisam ser otimizados. Fazê-lo com as mãos é difícil, mas pode ser previsto com base no fato de que você já tem drogas conhecidas, e compara a nova droga potencial com as conhecidas e prevê o quão bem sucedido ela poderia ser. Tudo isso está no nível de previsão; então ele precisará ser validado, realmente mostrado,que funciona. Mas as previsões de drogas são a chave para reduzir o dinheiro e o tempo gasto em pesquisas. Isso é muito relevante.
O segundo tipo de problema associado ao primeiro é, relativamente falando, encontrar os biomarcadores da doença. Câncer é um bom exemplo. Parte da razão pela qual ele é tão difícil de tratar é porque ele é tão diferente e existem tantas diferenças entre duas pessoas. Em geral, o que é câncer é quando um certo número de mutações se acumulou, o que levou à degradação celular. E a célula, em vez de desempenhar sua função, simplesmente começa a se dividir muito rapidamente e a substituir as células saudáveis. Isso gradualmente mata o corpo. Mas existem muitos mecanismos pelos quais a célula se quebra. O câncer de uma pessoa não é o câncer de outra, e um medicamento que funciona para uma pode não funcionar para outra. Conseqüentemente, é muito importante ser capaz de determinar rapidamente quais genes e outros parâmetros precisam ser examinados para entender que uma pessoa está doente com uma doença específica. Ou seja, você precisa encontrar biomarcadores.Para isso, são utilizados bancos de dados. Agora, dados de vários formatos estão sendo ativamente coletados de um grande número de pessoas, saudáveis e doentes. Você precisa cristalizar a saída; uma pessoa pode ou não ser curada, e você precisa entender que tipo de pessoa adoece com o quê. Se você encontrar rapidamente o que está quebrado, poderá curá-lo.
A terceira área que está em desenvolvimento é engraçada, mas isso é mineração de texto. Há muita literatura em biologia agora, um grande número de laboratórios estão envolvidos em um grande número de coisas. Na verdade, as pessoas costumam encontrar coisas - digamos, interação proteína-proteína ou interação droga-proteína. Acontece de forma independente, em diferentes partes do mundo, e eles não sabem como pode interagir. A mineração de texto analisa diferentes artigos publicados e cria um banco de dados. Ou seja, se em um lugar foi determinado que uma proteína interage com a segunda proteína, e em outro - que a segunda proteína pode ser influenciada por uma determinada droga, verifica-se que essa droga também pode afetar a proteína original. Um gráfico de interação é criado e você pode prever novas interações não encontradas anteriormente.
Outro tipo de problema que queria referir e que, na minha opinião, é bastante interessante é a análise de imagens. Em geral, imagem é um formato de dados poderoso, que é usado com muita frequência e muito em biologia, porque você pode entender muito sobre ela pela aparência de uma célula.
Se um grande número de imagens microscópicas se acumular, você precisa analisá-las rapidamente e ser capaz de fazer previsões. Um exemplo comum é, novamente, câncer; você faz uma biópsia e observa como as células saudáveis e doentes estão conectadas. Você os pinta - o núcleo em uma cor, o citoplasma em outra. Aí você tenta prever: esse tecido tem tumor ou não?
Para pesquisas mais fundamentais - processar uma imagem de um microscópio já é mais difícil; as pessoas desejam observar certas organelas, ou moléculas, ou proteínas e, consequentemente, rastrear como as células irão interagir umas com as outras, como se desenvolver e assim por diante. As pessoas aprenderam a colorir vários elementos da célula, e isso é feito com a ajuda de proteínas fluorescentes. Você pega o que quer e anexa aquela proteína marcada a ele. E se você acender uma luz sobre ela, ela se acenderá e você entenderá que essas organelas, ou proteínas, ou RNA estão localizadas em um determinado lugar. E então você acompanha como as células interagem. Isso também requer análise de imagem, pois há muitas fotos e, via de regra, não têm resolução muito boa. E você precisa obter uma boa resolução de fotos turvas. Na verdade, a comunidade não pára;as pessoas escrevem redes neurais, alteram parâmetros diferentes e assim por diante. Mas os dados evoluem e os métodos devem evoluir com eles. Ou seja, essas coisas devem andar de mãos dadas.
A tendência atual, na qual muitos laboratórios pensam, é "como conquistar o tempo". Ou seja, muitas vezes, tanto no sequenciamento quanto na análise de imagens e assim por diante, existe esse problema: há um instantâneo do sistema, mas é estático. Você faz uma medição em um momento específico. E você não entende como as células se desenvolverão posteriormente. Uma das abordagens para resolver esse problema é a imagem da vida. Quando você não mata células, mas as coloca no ambiente em que se desenvolvem, interagem e assim por diante, e com um microscópio a cada 10 segundos, tire uma foto a cada minuto, e então você pode restaurar as trajetórias de movimento, interações e assim por diante. Mas há uma limitação: por exemplo, carimbos fluorescentes não são muito bons para usar em imagens de vida, porque quando você ilumina um carimbo, ele emite radiação e isso é tóxico para a célula. A célula começa a morrer.Um compromisso deve ser encontrado: por um lado, você deseja manter a gaiola o mais saudável possível, mas, por outro lado, você deseja fazer mais instantâneos - mas quanto mais você os tira, mais rápido morre.
E aqui existe tal abordagem: as pessoas agora estão tentando determinar o destino da célula com a ajuda de um número mínimo de marcas fluorescentes, mas na verdade - apenas com a ajuda do microcontorno do núcleo e da célula. É como o reconhecimento de rosto: antes você podia fazer com olhos visíveis, boca, nariz e outras características, mas agora você tem que fazer apenas com o nariz, porque você pode ter óculos de sol nos olhos e máscara na boca. Ou seja, o problema fica mais complicado, e aqui a mesma coisa. É necessário calcular parâmetros biológicos a partir de uma pequena quantidade de informações, e há um grande número de tarefas.
Existem muitas tarefas, existem muitos tipos de dados. Todos os parâmetros das células, organismos e outras coisas são medidos. Esta é uma área muito interessante. Espero que, se você já pensou nela antes, eu não tenha desacreditado de você.
O que aconteceu antes
- , Senior Software Engineer Facebook — ,
- , ML- — , Data Scientist
- , EO LastBackend — , 15 .
- , Vue.js core team member, GoogleDevExpret — GitLab, Vue Staff-engineer.
- , DeviceLock — .
- , RUVDS — . 1. 2.
- , - . — .
- , Senior Digital Analyst McKinsey Digital Labs — Google, .
- «» , Duke Nukem 3D, SiN, Blood — , .
- , - 12- — ,
- , GameAcademy — .
- , PHP- Badoo — Highload PHP Badoo.
- , CTO Delivery Club — 50 43 ,
- , Doom, Quake Wolfenstein 3D — , DOOM
- , Flipper Zero —
- , - Google — Google-
- .
- Data Science ? Unity
- c Revolut
- : ,
- — IT-
- — «Docker » , Devops,

