O inventor do CAPTCHA quer traduzir a web com o Duolingo

Em uma palestra no TEDxCMU de abril de 2011, Luis von Ahn trouxe alguns dados interessantes sobre o uso do CAPTCHA ao redor do mundo. Na época mais de 200 milhões de sequências alfanuméricas aleatórias eram resolvidas por dia e, em média, cada CAPTCHA tomava 10 segundos do usuário. Muito tempo e esforço aqui sendo desperdiçados… […]

Em uma palestra no TEDxCMU de abril de 2011, Luis von Ahn trouxe alguns dados interessantes sobre o uso do CAPTCHA ao redor do mundo. Na época mais de 200 milhões de sequências alfanuméricas aleatórias eram resolvidas por dia e, em média, cada CAPTCHA tomava 10 segundos do usuário. Muito tempo e esforço aqui sendo desperdiçados… Por que não aproveitá-los melhor?

Surge o reCAPTCHA

Numa analogia simples, o reCAPTCHA compartilha da filosofia da roda d’água. Por que não aproveitar o potencial natural de algo que aconteceria de qualquer forma para facilitar o trabalho em outra área? A única diferença é que enquanto a roda d’água gera energia, o reCAPTCHA gera conhecimento.

A bem da verdade, os computadores não são incapazes de reconhecer texto e números em imagens, eles só não são tão bons quanto seres humanos. Há bastante tempo existe uma técnica chamada OCR, acrônimo de Optical Character Recognition, que permite tal feito. Mesmo scanners do século passado já contavam com esse recurso.

Exemplo de reCAPTCHA.Luis e seus amigos da Carnegie Mellon criaram o reCAPTCHA em 2008 (aqui tem a pesquisa) para aproveitar a resolução dos CAPTCHA por seres humanos para provarem que não são máquinas no aperfeiçoamento do OCR. A nova abordagem do sistema mostra sempre duas palavras; o usuário digita ambas, mas basta apenas uma para obter sucesso. Esses dados são comparados com as tentativas de outros usuários e processados e, no fim, os resultados ajudam a refinar os mecanismos de OCR (veja um exemplo). Em setembro de 2009, o reCAPTCHA foi comprado pelo Google e desde então tem sido usado extensivamente na digitalização de livros antigos.

Na palestra do TED (vídeo abaixo), Luis intitula esse processo de “colaboração online em escala massiva”. Há um gigantesco potencial inexplorado em diversas áreas, por muita gente, todos os dias e em todos os lugares do mundo. O reCAPTCHA exemplifica bem o que dá para fazer com a colaboração de muita, muita gente, sem que ninguém se dê conta de estar trabalhando e em algo tão grandioso.

Luis queria mais, porém. Ele quer traduzir a web.

O mesmo conceito, uma meta ainda mais ambiciosa

Entra em cena o Duolingo, um site que promete lhe ensinar um novo idioma. No momento, só são oferecidos três cursos (inglês, espanhol e alemão), mas o objetivo é expandir mais e mais as opções.

O Duolingo não foge muito do esquema de outros sites de idiomas colaborativos, como o (ótimo) Livemocha. A inovação está no aproveitamento das tentativas, erros e acertos dos aspirantes a poliglotas na tradução da web. A exemplo do que acontece com a roda d’água e o reCAPTCHA, toda a atividade gerada ali é reaproveitada, nesse caso para ajudar na tradução de sites diversos.

Sistemas de tradução automatizada estão aí há anos, sempre progredindo, mas todos ainda têm sérias dificuldades em lidar com contexto e múltiplos significados. É por isso que um texto em inglês traduzido pelo Google Translate para o português fica tão estranho; há tantos nuances no processo de tradução que, hoje, nenhum sistema supera o trabalho de um bom profissional de carne e osso. O objetivo do Duolingo é “casar” essas duas peças, algoritmos e seres humanos, e traduzir a web com a ajuda dos que queiram aprender uma nova língua de graça. A mim, parece uma troca bastante justa.

Como funciona o Duolingo?

“Se um milhão de pessoas usassem o Duolingo para aprender, toda a Wikipedia em inglês poderia ser traduzida para o espanhol em apenas oitenta horas.”

Meses após requisitar o meu convite, finalmente ele chegou.

Tradução on the fly.O site é bem bacana, visual agradável (usa Bootstrap!) e tem até uma mascote, a coruja Duo. Ao acessar o link especial do convite, o Duolingo o submete a um cadastro bem completo; além de informações pessoais, ele já mostra e explica como funcionam alguns tipos de lições, configura o áudio (em Flash…) e o familiariza com o que achei bem sensacional: a revelação das traduções passando o mouse por cima das palavras. De qualquer palavra, a qualquer momento. Não é uma competição e você não será penalizado se errar ou “usar xit”. Parece bobagem, mas oferecer essa opção e incentivar o seu uso dá um ar bem mais simpático ao sistema.

O curso é dividido em módulos que formam uma espécie de mapa como o do Super Mario Bros. Ao atingir a pontuação mínima, novas áreas são desbloqueadas e você pode avançar. Toda lição é recompensada com esses pontos, chamados ali de skill points, e há uma parte social com timeline e amigos e todo aquele conceito de seguir e ser seguido do Twitter e Facebook — rola integração com os dois, a propósito. Em tempos de gamification, é quase que natural esperar elementos do gênero em um site como o Duolingo.

Visão geral de espanhol no Duolingo.

Dentro de cada área há lições temáticas estruturadas da seguinte forma: aparecem várias frases que devem ser traduzidas e… bem, é basicamente isso. Antes de arriscar a tradução (só se tem uma chance), aparece um mini-treinamento opcional que familiariza o usuário com novas palavras. Esses treinamentos variam, vão de traduções simples a exercícios de listening e até perguntas de múltipla escolha — em um menu drop-and-down, mas a ideia é a mesma.

A sua tradução para a frase de cada passo é comparada a todas as demais já inseridas no sistema. Se ela for ruim em comparação à média, ganha-se um skill point; se for acima dos 50%, dois; e se ela bater em cima com a tradução mais comum/certa segundo os outros estudantes, aí lhe são dados três skill points.

Tradução feita no Duolingo.

E não acaba por aí. Após inserir a sua tradução, dá para dar notas para as dos outros e, de quebra, aprender com os erros e acertos dos “colegas de classe”.

Outra forma de interação bacana se dá na área de seleção de lições. Cada uma oferece uma área de perguntas e respostas bem parecida com o Stack Overflow. Dá para publicar dúvidas e insights e comentar nas de outros membros.

O fato de começar a toda, já com exercícios logo de cara sem uma introdução ou nada do tipo pode assustar, mas é como o vídeo ali em cima diz: as palavras e frases estão de acordo com o seu nível. Começando no Basics 1, pressupõe-se que eu não saiba nada de espanhol, logo o sistema vem com frases bem bobinhas, bastante simples. Já aprendi que maçã se diz “manzana” e vermelha, “roja” ;-)

Funciona?

Acabei de receber meu convite e ainda estou explorando o Duolingo. Na prática, como dito acima, é bem parecido com o Livemocha, ou seja, é um curso focado na prática. Ele perde para o concorrente pela base de usuários, ainda relativamente restrita, o que é um revés considerável pela natureza colaborativa do sistema de aprendizagem. De qualquer forma, está tudo bem redondo, o visual e as funções são agradáveis e a causa, nobre.

Não sei se ficarei craque em espanhol, mas pero si, pero no, na pior das hipóteses estarei ajudando a traduzir a web. Vale a pena ficar de olho nesse Duolingo.

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas