Você acha o cartão de memória da sua câmera muito espaçoso? Ele não é nada perto do DNA. Com o acúmulo de dados crescendo rapidamente mais do que em qualquer momento da humanidade no passado, cientistas e engenheiros veem o código genético como um tipo de próxima geração de armazenamento de dados digitais.

Agora, uma equipe de geneticistas de Harvard e Johns Hopkins estão desenvolvendo um novo método de codificação do DNA que torna possível armazenar mais informação digital do que nunca. Falamos com o chefe da pesquisa, Sriram Kosuri, para saber por que o futuro do armazenamento de dados está no código genético e por que o novo esquema de codificação da sua equipe representa um passo tão importante para o aproveitamento do vasto potencial de armazenamento do DNA.

O problema

A humanidade tem um problema com armazenamento. Recentes pesquisas conduzidas pelo IDC Digital Universe sugerem que a perfusão da tecnologia dentro da sociedade desencadeou uma explosão no volume de informação que nós, enquanto espécie, produzimos diariamente. Entre fotos, vídeos, textos, tweets, atualizações no Facebook, solicitações intrusivas do FarmVille, fotos no Instagram e várias outras formas de produção de dados digitais, a informação do mundo dobra a cada dois anos e levanta algumas importantes questões, sendo a maior delas: onde afinal nós guardaremos tudo isso?

“Em 2011 tínhamos 1,8 * 10²¹ bytes de informação guardados e replicados”, explica Sriram Kosuri, geneticista de Harvard e membro da plataforma de biologia sintética do Instituto Wyss, em um email ao io9. “Em 2020 será 50 vezes isso. É um número assustador; e não inclui um conjunto ainda maior de dados que nós desconsiderados (por exemplo, feeds de vídeo).”

Cadeias de DNA.Como Kosuri aponta, nem toda essa informação precisa ser guardada, mas (sendo os pequenos malucos diligentes que somos), uma boa parte dela será guardada em algum lugar para a posteridade; e no ritmo em que estamos gerando informação, precisaremos de novas soluções de armazenamento se quisermos ter alguma esperança de mantê-las à altura da nossa demanda por espaço. “A nossa capacidade de guardar, gerenciar e arquivar informações está constantemente sendo posta à prova já,” repara Kosuri. “O arquivamento também é um grande problema.”

A (teórica) solução: as vantagens do armazenamento no DNA

O armazenamento de arquivos é onde o DNA entra. Como mídia de armazenamento, é difícil competir com os blocos de montar universais da vida. Em um artigo publicado na edição de hoje da Science, Kosuri — em co-autoria com o geneticista Yuan Gao e o pioneiro da biologia sintética George Church — descreve uma nova técnica que usa o DNA para codificar informação digital em quantidades sem precedentes. Veremos o seu método de armazenamento no próximo tópico, mas por ora vejamos alguns números que ajudam a contextualizar o que Kosuri identifica como as duas maiores vantagens do armazenamento no DNA: densidade e estabilidade de informação.

Na máxima teórica, um grama de uma única fita de código genético pode codificar 455 exabytes de informação. Isso é quase meio bilhão de terabytes, ou 4,9 * 10¹¹ GB. (Como ponto de referência, o último iPad chega no máximo a 64 GB de espaço.) As fitas de DNA também se dobram sobre si mesmas, significando que, diferente de outras mídias de armazenamento digital, os dados não precisam ficar restritos a duas dimensões; e ser capaz de armazenar dados em três se traduz em mais espaço livre.

CDs velhos.O DNA também é incrivelmente robusto e costuma ser legível mesmo após depois de ser exposto a condições adversas por milhares de anos. Toda vez que os pesquisadores recuperam informação genética de um espécime de mamute, ou sequenciam o genoma de uma múma de 5300 anos, tem-se um atestado da durabilidade do DNA. Apenas tente recuperar arquivos de um CD ou DVD de cinco mil anos. Nem é preciso ir tão longe; tente de um com 20 anos. Grandes são as chances de você não conseguir.

Dito isso, o DNA tem seus contras. “Ele não pode ser reescrito, ele não permite acesso aleatório e tem uma latência bem alta,” explica Kosuri, “então, de verdade, as aplicações são para arquivamento (sem querer minimizar a importância do arquivamento).”

A solução (prática)

Para demonstrar o vasto potencial do armazenamento no DNA, Kosuri e sua equipe usaram apenas 55 mil pedaços de 159-nucleotídeos de uma única fita de código genético para codificar um livro de 5,27 megabits, contendo 53426 palavras, 11 imagens JPEG e um programa JavaScript. Eles então usaram técnicas de sequenciamento de DNA de última geração para lê-lo de volta. (Para aqueles que precisam de um refresco, nucleotídeos são os blocos individuais que, quando colocados juntos, formam as fitas de DNA.)

5,37 megabits provavelmente não o impressiona muito (isso dá cerca de 660 KB de informação, o que você encontraria em um disquete de 3,5″ dos anos 1980), mas é incrível por pelo menos três motivos:

Um: ele esmaga o recorde anterior de armazenamento em DNA, de 7290 bits.

Dois: o novo método de codificação empregado por Kosuri e seus colegas permitiu a eles corrigir problemas de custo e precisão, dois velhos obstáculos técnicos do armazenamento em DNA:

“O principal motivo do por quê isso era difícil no passado é que a real dificuldade para construir uma grande extensão de DNA com a sequência exata, é torná-la barata. Tivemos uma abordagem que nos permitiu usar extensões menores de DNA (basicamente tendo um endereço [19 bits] e bloco de dados [96 bits]), então cada extensão curta pode ser costurada depois usando um sequenciador. Usar extensões curtas nos permitiu alavancar as tecnologias da próxima geração de síntese [para a escrita de dados]… e da próxima geração de sequenciamento [para a leitura de dados] a custos realmente baixos e mais facilidades.”

Três: ele oferece uma prova de conceito convincente de que o DNA pode ser usado para armazenar informação digital em densidades notáveis. “O que nós publicamos em termos de escala é… obviamente pequeno comparado às tecnologias comerciais de agora,” explica Kosuri, mas “usando o nosso método, um petabyte de dados [um petabyte = 1024 terabytes] exigiria cerca de 1,5 mg de DNA.” Como aquela informação genética pode ser empacotada em três dimensões, isso se traduz em um volume de armazenamento de cerca de um milímetro cúbico.

Gráfico logarítimo.O gráfico logarítmico apresentado aqui ilustra como a densidade de armazenamento demonstrada por Kosuri e seu time (rotulado “This Work”) se compara a tecnologias de hoje e de amanhã. Você deveria mesmo olhar o gráfico, mas para resumir: o DNA ganha por muito.

“Por exemplo,” explica Kosuri, “nós somos ~10 ordens de magnitude (100 bilhões de vezes) mais denso que um CD, um milhão de vezes mais denso que as melhores tecnologias de armazenamento e cerca de ~1000 vezes mais denso que [qualquer outra] prova de conceito funcional (por exemplo, átomos posicionados em uma superfície).” Ele diz que o segredo da superioridade do DNA se deve ao fato de que ele pode ser usar em três dimensões; “assim, não há nenhuma superfície que exija uma espessura, o que realmente acaba com a densidade de dados 3D.”

O futuro

O armazenamento em DNA tem suas limitações. Como mencionei acima, ele não pode ser reescrito e não tem acesso aleatório. A sua latência também é alta para que ele se torne prático para qualquer outra coisa além de arquivamento, mas de qualquer forma, já está convencionado que precisamos muito de espaço para arquivar dados. Os outros únicos fatores limitantes, no momento, são as tecnologias de síntese e sequenciamento — e elas não serão problema por muito mais tempo.

De acordo com Kosuri, os custos da síntese e do sequenciamento de DNA têm caído mais rapidamente do que a Lei de Moore. Na seção suplementar do seu paper, Kosuri e seus colegas imaginam quanto um petabyte de informação exigiria, do ponto de vista dos custos de síntese e sequenciamento, e concluem que eles precisaram de cerca de uma queda de 6 ordens de magnitude no sequenciamento e 7~8 em síntese para que uma mídia de armazenamento com aquela capacidade se tornasse viável.

“Para dar perspectiva,” explica Kosuri, “os custos têm caído nos últimos 5~10 anos cerca de 10x e 5x por ano para o sequenciamento e a síntese, respectivamente.” Em outras palavras: esta tecnologia está próxima. Você está pronto para o drive de DNA?

Os resultados da pesquisa foram publicados na última edição da Science.

Imagem: Shutterstock