Se você trabalha com programação e acredita que um bom código é uma série simples, sem personalidade e basicamente anônima de caracteres, pense novamente. Uma nova pesquisa sugere que programadores deixam pegadas digitais na forma em que escrevem código, e podem ser identificados através delas.

Uma equipe da Universidade de Drexel, Universidade de Maryland e Universidade de Princeton, nos Estados Unidos, e da Universidade de Göttingen, na Alemanha, alegam poder encontrar quem escreveu certo código — e com uma precisão alarmante.

Os sinais que eles usam são bem simples: você inseriu espaços longos ou curtos no código? Usou letras maíusculas ou underscore para nomear convenções? Inseriu um comentário engraçadinho nas marcações?

Usando processamento de linguagem natural – que mistura linguística e inteligência artificial – e aprendizagem de máquina (outro sub-campo da inteligência artificial), eles conseguem definir de quem é um código com 95% de exatidão.

O trabalho usa indicadores como layout e atributos léxicos para descobrir quem escreveu determinado código. Mas às vezes também usa algo chamado “árvores abstratas de sintaxe”, que “capturam propriedades de estilo do código que são completamente independentes do estilo de escrita.” Em outras palavras, a busca vê além de nomes, comentários e espaços, procurando por pistas escondidas na estrutura do código.

Testes feitos com scripts públicos do Google Code Jam revelam que, quando o algoritmo analisa 630 linhas de código de um autor, ele consegue identificar outros códigos da mesma pessoa com 95% de precisão.

Além de ser um truque bem legal, existem diversas formas de aplicar essa descoberta no mundo real. As autoridades podem usar isso para encontrar hackers de forma mais fácil – por exemplo, quem cometer fraudes online. Ou seja, talvez isso inaugure uma nova era curiosa na programação: aprender a imitar o estilo de outra pessoa. [Drexel via IT World]

Imagem por Olly/Shutterstock