Um inovador motor de busca de ADN está acelerando a descoberta genética.

Um inovador motor de busca de ADN está acelerando a descoberta genética.

Doenças genéticas raras agora podem ser detectadas em pacientes e mutações específicas de tumores identificadas — um marco possibilitado pelo sequenciamento de DNA, que transformou a pesquisa biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de nova geração) gerou uma onda de descobertas. Durante 2020 e 2021, por exemplo,

Doenças genéticas raras agora podem ser detectadas em pacientes e mutações específicas de tumores identificadas — um marco possibilitado pelo sequenciamento de DNA, que transformou a pesquisa biomédica há décadas. Nos últimos anos, a introdução de novas tecnologias de sequenciamento (sequenciamento de nova geração) gerou uma onda de descobertas. Durante 2020 e 2021, por exemplo, esses métodos permitiram a decodificação rápida e o monitoramento global do genoma do SARS-CoV-2.

Ao mesmo tempo, um número crescente de pesquisadores está tornando seus resultados de sequenciamento publicamente acessíveis. Isso levou a uma explosão de dados, armazenados em grandes bancos de dados como o SRA americano (Sequence Read Archive) e o ENA europeu (European Nucleotide Archive). Juntas, essas arquivamentos agora contêm cerca de 100 petabytes de informação — aproximadamente equivalente à quantidade total de texto encontrada em toda a internet, com um único petabyte igual a um milhão de gigabytes.

Até agora, os cientistas biomédicos precisavam de recursos computacionais enormes para vasculhar esses vastos repositórios genéticos e compará-los com seus próprios dados, tornando as pesquisas abrangentes quase impossíveis. Pesquisadores do ETH Zurich desenvolveram agora uma maneira de superar essa limitação.

Pesquisa em texto completo em vez de baixar conjuntos de dados inteiros

A equipe criou uma ferramenta chamada MetaGraph, que simplifica e acelera drasticamente o processo. Em vez de baixar conjuntos de dados inteiros, o MetaGraph permite pesquisas diretas dentro dos dados brutos de DNA ou RNA — muito parecido com o uso de um mecanismo de busca na internet. Os cientistas simplesmente inserem uma sequência genética de interesse em um campo de pesquisa e, em segundos ou minutos dependendo da consulta, podem ver onde essa sequência aparece em bancos de dados globais.

“É uma espécie de Google para DNA”, explica o Professor Gunnar Rätsch, um cientista de dados do Departamento de Ciências da Computação do ETH Zurich. Anteriormente, os pesquisadores poderiam apenas pesquisar metadados descritivos e depois precisavam baixar os conjuntos de dados completos para acessar as sequências brutas. Essa abordagem era lenta, incompleta e cara.

De acordo com os autores do estudo, o MetaGraph também é notavelmente econômico. Representar todas as sequências biológicas publicamente disponíveis exigiria apenas alguns discos rígidos de computador, e grandes consultas custariam não mais do que cerca de 0,74 dólares por megabase.

Como o novo mecanismo de busca de DNA é rápido e preciso, ele pode acelerar significativamente a pesquisa — especialmente na identificação de patógenos emergentes ou na análise de fatores genéticos associados à resistência a antibióticos. O sistema pode até ajudar a localizar vírus benéficos que destroem bactérias nocivas (bacteriófagos) ocultos dentro desses imensos bancos de dados.

Compressão por um fator de 300

Em seu estudo publicado em 8 de outubro na Nature, a equipe do ETH demonstrou como o MetaGraph funciona. A ferramenta organiza e comprime dados genéticos usando gráficos matemáticos avançados que estruturam a informação de forma mais eficiente, semelhante a como o software de planilhas organiza valores. “Matematicamente falando, é uma enorme matriz com milhões de colunas e trilhões de linhas”, explica Rätsch.

Criar índices para tornar grandes conjuntos de dados pesquisáveis é um conceito familiar em ciência da computação, mas a abordagem do ETH se destaca por como conecta dados brutos a metadados enquanto atinge uma taxa extraordinária de compressão de cerca de 300 vezes. Essa redução funciona de maneira muito semelhante a resumir um livro – elimina redundâncias enquanto preserva a narrativa e relacionamentos essenciais, retendo todas as informações relevantes em uma forma muito menor.

“Estamos empurrando os limites do que é possível para manter os conjuntos de dados o mais compactos possível sem perder informações necessárias”, diz Dr. André Kahles, que, assim como Rätsch, é membro do Grupo de Informática Biomédica do ETH Zurich. Em contraste com outras máscaras de pesquisa de DNA atualmente em pesquisa, a abordagem dos pesquisadores do ETH é escalável. Isso significa que quanto maior a quantidade de dados consultados, menos poder computacional adicional a ferramenta requer.

Metade dos dados já está disponível agora

Primeiramente introduzido em 2020, o MetaGraph tem sido continuamente refinado. A ferramenta já está acessível publicamente para pesquisas (https://metagraph.ethz.ch/search) e já indexa milhões de sequências de DNA, RNA e proteínas de vírus, bactérias, fungos, plantas, animais e humanos. Atualmente, quase metade de todos os conjuntos de dados de sequência global disponíveis estão incluídos, com o restante esperado para seguir até o final do ano. Como o MetaGraph é de código aberto, também pode atrair o interesse de empresas farmacêuticas que gerenciam grandes volumes de dados de pesquisa interna.

Kahles acredita até que é possível que o mecanismo de busca de DNA um dia seja usado por indivíduos privados: “Nos primeiros dias, até o Google não sabia exatamente para que servia um mecanismo de busca. Se o rápido desenvolvimento no sequenciamento de DNA continuar, pode se tornar comum identificar suas plantas de varanda com mais precisão.”

Posts Carousel

Leave a Comment

Your email address will not be published. Required fields are marked with *

Latest Posts

Top Authors

Most Commented

Featured Videos