Por que endereços da web são cheios de caracteres estranhos?

O que são todos aqueles caracteres estranhos que aparecem na barra de endereços?

#?&%! Por que alguns endereços na internet parecem xingamentos censurados de histórias em quadrinhos? Temos a resposta.

Como você provavelmente sabe, URLs (sigla em inglês para Localizador Uniforme de Recurso) são basicamente os endereços de cada um dos sites da internet. É por isso que, originalmente, as URLs deveriam ser fáceis de se lembrar. E, ainda assim, diversos sites atualmente usam endereços longos e indecifráveis. Por que isso acontece? E o que significa esse monte de caracteres?

Anatomia de uma URL

Comecemos pela estrutura básica de uma URL. Vamos usar http://www.gizmodo.com.br como exemplo.

http:// é o protocolo, que diz ao seu computador como ele deve interagir com o servidor do site que você quer visitar. Neste caso, HTTP diz ao seu computador para esperar pelo recebimento de dados que foram estruturados para websites.

www.gizmodo.com.br – esta parte indica o nome do servidor com o qual você quer interagir. Pense nele como o endereço ou no número de telefone.

Agora, vamos parar por um segundo. Nos primórdios da internet, esses componentes básicos de URL eram o suficiente. No começo, páginas da web eram documentos simples conectados uns aos outros. Sean O’Connor, engenheiro-chefe de aplicação no encurtador de endereços Bit.ly, relembra:

Neste mundo relativamente simples, apenas isso de informação era exigido para diferenciar uma página da outra: qual protocolo eu uso (http://), para qual servidor devo fazer a solicitação (www.exemplo.com), e qual documento eu quero nesse servidor (/artigos/coisa-legal.html).

No entanto, conforme a web evoluiu, as possibilidades aumentaram para os websites, e, consequentemente, para as URLs. As pessoas queriam que os computadores fizessem coisas mais interessantes, coisas dinâmicas além de olhar para páginas estáticas. E foi aí que URLs começaram a ficar mais detalhadas.

Toda vez que você encontrar um “?” em uma URL, por exemplo, os caracteres que seguirem são chamados “parâmetros de consulta”. Com essas informações extras, o servidor pode responder dinamicamente, entregando a você um site baseado no que você quer ver. Ele pode colocar automaticamente seu nome em um campo, ou fornecer links relevantes com base na sua busca na web.

Por isso que, hoje em dia, links podem ser longos e cheios do que pode parecer besteira. Na verdade, existem tantos símbolos diferentes a serem incluídos atualmente em URLS que a Internet Society preparou um diretório com todos eles.

As URLs na internet moderna

Vamos dar uma olhada no que acontece com algumas URLs de exemplo após a parte do .com.br do endereço.

http://www.gizmodo.com.br/giz-explica/ – Essa barra (/giz-explica) organiza o “caminho” da solicitação, ou para onde ir entre todos aqueles arquivos hospedados no servidor que hospeda o Gizmodo. Essa barra marca a hierarquia do caminho, como se fossem pastas.

E que tal essa? Eu busquei “Eu gosto do Gizmodo” no Google e eis o que aconteceu:

https://www.google.com.br/?gfe_rd=cr&ei=oqfLVaeaMumU8Qe7mKc4&gws_rd=ssl#q=Eu+gosto+do+Gizmodo

É aqui que as coisas começam a ficar doidas, mas a estrutura provavelmente é um pouco familiar, não? Esse é o tipo de URL que aparece após você iniciar uma busca, e os parâmetros que você definiu (como as palavras que buscou) aparecem na URL, cada uma delas separada por um sinal de mais. (Lembre-se, todos os parâmetros da busca em uma URL aparecem depois de um sinal de interrogação.)

Mas e se a sua busca estiver cheia de caracteres que não sejam letras nem números – um ponto de interrogação, por exemplo? Neste caso, um caractere especial diferente substitui o original. Ou seja, se você buscar no Google “O que é isso?”, um caractere diferente vai substituir o ponto de interrogação – ele vira “%3F”. Afinal, precisamos do ponto de interrogação para sinalizar que temos parâmetros de busca na URL, lembra? Esse é um processo chamado escape.

No caso, temos: q=O+que+%C3%A9+isso%3F

Neste caso de “o que é isso?”, o ponto de interrogação deixaria tudo confuso, considerando o significado dos pontos de interrogação dentro das URLs, explicou O’Connor. Ele continua:

Assim, há um processo chamado “escape”. Quando você escapa, você substitui um caractere significativo com uma representação alternativa que não cause problemas, mas que pode ser revertido para o valor inicial. Exemplos disso aqui são os espaços substituídos por sinais de mais e a troca do ponto de interrogação por %3F.

É possível encontrar números em URLs de resultados de busca também, como um “%20” esmagado entre palavras. É uma forma de escape também – isso representa espaço.

Se você encontrar qualquer sinal de igual em uma URL, ele está sendo usado para separar chaves de valores em qualquer par chave-valor, e o sinal comercial (&) separa pares diferentes. Um par chave-valor pode ser algo como “pagina=5”. Aqui, estamos falando da “pagina” de um site como uma chave, e o “5” como o valor, no que seria a quinta página.

&ei=o – Vamos voltar ao “Eu gosto do Gizmodo”. Em alguns casos, como nesse, é bem possível que seja impossível descobrir o que as partes da URL realmente significam. “Dito isso, é bem comum que parâmetros sejam usados para manter registro de informações que só têm significado para o site que os usa,” diz O’Connor. “Assim, eles podem não ser explicados ou documentados publicamente.”

#section-result – Por fim, a cerquilha (ou hashtag, dependendo da sua idade). É um fragmento do URL que funciona como um vagão. O’Connor explica: “Tudo no fim de uma URL após o sinal da cerquilha é especial por não ser nunca enviado para o servidor, e ser exclusivamente usado pelo navegador. Frequentemente isso é usado para se referir a partes específicas de um documento, mas também pode ser usado para outros fins.”

Estática e dinâmica

Agora que esclarecemos as coisas, você deve saber que URLs podem ser classificadas em duas categorias, de acordo com quantos caracteres bizarros ela tem. Esses dois tipos são estáticos e dinâmicos.

URLs estáticas são os que contém pontos, barras e underscores. Eles tendem a trafegar melhor do que URLs dinâmicas e aparecem em posições melhores nas buscas do Google, já que são fáceis de ler e lembrar.

As dinâmicas, por sua vez, contam com pontos de interrogação, sinais comerciais, sinais de igual, pontos de exclamação, asteriscos e outros símbolos de teclado. Essas URLs são impossíveis de se memorizar, são totalmente inúteis para campanhas de marca e geralmente não são muito clicadas.

Quero dizer, obviamente ninguém vai usar uma URL dinâmica em algum tipo de missão de marketing ou em um cartão de visitas. Mas as pessoas querem enviar pelo Twitter URLs de conteúdo bastante específico, ou compartilhá-las em apresentações, e esses caracteres estranhos atrapalham as coisas. Quando você encurta URLs no Bitly ou TinyURL ou Ow-ly, esses serviços não necessariamente eliminam os caracteres extras das URLs dinâmicas; eles simplesmente armazenam essas informações em outro lugar. Quando um usuário clica em um link encurtado, ele é redirecionado para o original com todos os caracteres especiais.

É um sistema um pouco complicado, mas provavelmente não será substituído tão cedo. Na era do Twitter, os encurtadores de URL se tornaram algo como uma revolução. E, no futuro, nosso direto contato ou familiaridade com URLs vai cair consideravelmente, especialmente considerando que muito conteúdo hoje em dia é compartilhado pelo Facebook, e alguns costumam acessar sites através de feeds em mídias sociais.

Em um futuro próximo, URLs podem ter o mesmo destino dos números de telefone: estão por todos os lados, usamos todos os dias, mas você só vai lembrar de cabeça quais são os mais importantes para você.

Foto por Chris Dlugosz/Flickr

fique por dentro
das novidades giz Inscreva-se agora para receber em primeira mão todas as notícias sobre tecnologia, ciência e cultura, reviews e comparativos exclusivos de produtos, além de descontos imperdíveis em ofertas exclusivas