Cientistas armazenam um filme inteiro dentro do DNA

Imagem: iStockPhoto

Pesquisadores da Universidade do Texas divulgam protocolo para armazenar grandes quantidades de dados embaralhados em filamentos de material genético.

O DNA sintético como meio de armazenamento de dados de alta densidade fascina os futuristas digitais há anos. Toda a internet pode ser codificada em filamentos de DNA que cabem dentro de uma caixa de sapatos, enquanto a molécula de DNA é tão estável que pode durar dezenas de milhares ou mesmo centenas de milhares de anos. Em 2013, por exemplo, os cientistas sequenciaram todo o genoma de um fóssil de cavalo com 700.000 anos de idade.

Até agora, o truque envolveu grandes quantidades de bytes – um padrão de dados personalizado para lojas lineares e sequenciais, como RAM e discos rígidos – em florestas úmidas e onduladas de macarrão desoxirribonucléico de tamanho nano. A tradução de um formato de dados para outro não tem nada de simples.

Entre na equipe da William Press na Universidade do Texas em Austin. Eles foram pioneiros em um conjunto de algoritmos de codificação e decodificação de dados de DNA que poderiam impulsionar um novo campo de armazenamento de dados de alta densidade e longo prazo. Seu trabalho, remanescente em sua ambição generativa do protocolo BB84, que lançou o campo da criptografia quântica, poderia um dia formar a base para um mundo de aplicativos de armazenamento de dados genômicos que provêm da recriação de informações em termos de petabytes por grama.

Stephen Jones, um pós-doc do grupo Press e co-autor do artigo da Proceedings da Academia Nacional de Ciências que descreve suas pesquisas, diz que é melhor começar entendendo onde os erros de armazenamento de dados geralmente ocorrem. Nos dispositivos tradicionais de disco rígido e memória flash, os movimentos de bits e apagamentos são inimigos de zeros e uns.

“Temos décadas de trabalho bonito na busca de soluções para esses dois tipos de erros”, disse Jones. “Mas o DNA é fundamentalmente diferente”.

Para criar um padrão de armazenamento de dados de DNA viável, você precisa se preocupar com substituições, inserções e exclusões. O primeiro é semelhante a um pouco invertido, no qual, digamos, um nucleotídeo A é substituído no lugar onde um nucleotídeo T costumava estar. (A, C, T e G e não 0 e 1 são a linguagem base das informações de DNA.) As duas últimas classes de erro representam casos, como os nomes sugerem, em que pares de bases de DNA são inseridos ou excluídos de uma cadeia.

Fundamentalmente, no entanto, com o DNA, não há uma maneira confiável e inerente de saber que o fio que você está lendo contém erros de substituição, inserção ou exclusão. Não existe um “registro de memória” contável e quantificável do DNA. Cada par de bases é apenas outro nucleotídeo em uma longa sequência. E juntos todos eles formam apenas mais uma fita de DNA.

A natureza relativa do armazenamento de dados de DNA é, de fato, a chave para o protocolo HEDGES de Press, Jones e co-autor (sigla para Hash Encoded, Decoded by Greedy Exhaustive Search). Nenhum nucleotídeo isolado isolado em seu protocolo contém dados utilizáveis. Em vez disso, é o acúmulo de sequências de nucleotídeos que fornece um sistema robusto de armazenamento que eles prevêem que poderia alcançar o potencial de alta densidade do DNA enquanto ainda durava os séculos.

O grupo usou O Mágico de Oz, de L. Frank Baum, traduzido para o esperanto, como seu conjunto de dados de amostra para armazenamento. Atualmente, o DNA sintético, diz Jones, geralmente vem em fios de cem pares de bases. Essa é a base do seu “disco rígido”, por assim dizer.

Portanto, seu protocolo precisava ser dividido em milhares ou milhões de pequenas seqüências de cem nucleotídeos que continham as informações necessárias para remontar o texto de origem – mesmo com um número desconhecido de erros de substituição, inserção e exclusão lançados em boa medida. .

Codificação

O Mágico de Oz no DNA envolveu passar os dados através de uma camada de codificação “externa” e uma camada de codificação “interna”. (Pense nessas etapas como dois algoritmos separados em um padrão criptográfico complexo.)

A camada externa diagonalizava os dados de origem para que qualquer cadeia de DNA contivesse fragmentos de muitas partes da mensagem. A camada interna, HEDGES, converte cada bit em A, C, T ou G de acordo com um algoritmo que depende do valor zero ou de um valor desse bit, além de informações adicionais sobre seu lugar no fluxo de dados e também sobre os dados. bits imediatamente anteriores.

Então, uma vez que Oz é traduzido para a linguagem dos nucleotídeos, agora está pronto para ser escrito em filamentos de DNA sintético. Uma vez codificados, os fios permaneciam armazenados onde, segundo Jones, seu trabalho era envelhecer artificialmente as informações genéticas – tentando bioquimicamente transformar os fios de DNA e sujeitar a amostra a danos causados ​​por calor e frio.

Vencendo o DNA

“Eu venci o DNA”, disse ele. “Depois que vencemos, vimos se poderíamos recuperar O Mágico de Oz. A resposta foi sim. Ele mostrou o quão robusto é o DNA. Tivemos que realmente trabalhar duro para vencer. Pode ser mais fácil se você tiver 10.000 anos enterrados na terra ou no espaço sideral ou algo assim. Mas tivemos que realmente acelerar o processo. ”

A decodificação dos dados do armazenamento de DNA envolveu primeiro o sequenciamento do genoma do Mágico de Oz e depois a conversão desses dados genéticos em bits. Depois de descobrir quais bits são bits de “endereço”, eles podem agrupar os bits de informações restantes novamente em um único arquivo de dados concatenados.

O colega pós-doc e co-autor John Hawkins disse que uma das características mais atraentes de seu novo protocolo é a robustez das mudanças tecnológicas e de formato de dados ao longo dos séculos vindouros.

“A leitura do DNA nunca se tornará obsoleta”, disse ele. “Os dados sobreviventes no futuro são apenas metade do problema. Você ainda precisa lê-lo do outro lado. [Mas] o DNA é exclusivamente à prova de futuro nesta frente porque somos feitos dele. Enquanto os humanos forem feitos de DNA, sempre quereremos máquinas que possam lê-lo. ”

Fonte: Texas University – Power of DNA to Store Information Gets an Upgrade