A Alexa, assistente digital da Amazon, já fez usuários passarem por situações desagradáveis algumas vezes. O software já interpretou mal algo que ouviu e começou a enviar gravações de conversas privadas para pessoas aleatórias e chegou a mandar dados do consumidor errado quando foi solicitado o download das informações mantidas pela empresa. Porém, há um problema ainda maior: funcionários da Amazon podem ouvir trechos do que os usuários falam para o alto-falante inteligente, conforme aponta uma reportagem da Bloomberg publicada nesta quarta-feira (10).

De acordo com a reportagem, a Amazon emprega “milhares” de pessoas ao redor do mundo com a tarefa de melhorar as funcionalidades de reconhecimento da voz da Alexa. Esse time tem acesso a gravações de voz de consumidores reais que estão utilizando aparelhos que possuem a Alexa em suas casas ou no trabalho (apenas alto-falantes Echo são diretamente mencionados na matéria, embora a Alexa também funcione em celulares e dispositivos de terceiros).

Essas gravações são “transcritas, anotadas e então alimentadas de volta no software”, como parte de um esforço de continuar a aprimorar a habilidade da Alexa para reconhecer a fala sem intervenção humana.

O processo seria necessário porque a Alexa tem limitações para se treinar sozinha, especialmente quando se trata de frases distorcidas, sotaques, gírias, palavras regionais, outros idiomas e afins.

A Bloomberg entrevistou sete fontes diferentes que estão ligadas a esse programa de treinamento que ouve os usuários. Alguns deles disseram que os funcionários da Amazon chegavam a ouvir aproximadamente mil clipes de áudio por turno de nove horas. Na maior parte do tempo, o trabalho é “mundano”:

Um funcionário em Boston disse que extraiu dados de voz acumulados para afirmações específicas como “Taylor Swift” e os anotou para indicar que o usuário estava procurando pela artista. De vez em quando, eles ouviam coisas que os donos do Amazon Echo provavelmente prefeririam manter em sigilo: uma mulher cantando mal no chuveiro ou uma criança gritando por ajuda.

As equipes usam salas de bate-papo internas para compartilhar arquivos quando precisam de ajuda para analisar uma palavra confusa – ou quando se deparam com uma gravação divertida.

No entanto, em outras ocasiões os funcionários ouviram trechos que se pareciam com crimes, incluindo o que eles acreditavam ser um abuso sexual. A Amazon disse a funcionários na Romênia que não é o trabalho da empresa intervir.

Outros disseram à reportagem que cada auditor pode encontrar até 100 gravações por dia nas quais a Alexa não parece ter sido ativada deliberadamente pelo usuário com o comando de voz ou ação (como pressionar um botão).

A Amazon caracterizou o número de gravações que são analisadas por humanos como “uma amostragem extremamente pequena” em um comunicado enviado para a Bloomberg, adicionando que o fazia apenas com o propósito de “[melhorar] a experiência dos consumidores”. A companhia também caracterizou o processo como de baixo risco:

Nós temos estritas garantias técnicas e operacional, e temos uma política de zero tolerância de abuso de nosso sistema. Os funcionários não possuem acesso direto a informações que possam identificar a pessoa ou a conta como parte de seu fluxo de trabalho. Todas as informações são tratadas com alta confidencialidade e utilizados autenticação de multi-fatores para restringir o acesso, além de serviço de criptografia e auditorias do nosso ambiente de controle para proteger tudo”.

No entanto, a Bloomberg aponta que uma captura de tela obtida por meio de um dos revisores “mostra que as gravações enviadas aos auditores da Alexa não mostravam o nome completo e endereço do usuário, mas era associada com um número de conta, bem como o primeiro nome do usuário e o número serial de cada dispositivo”.

A política de privacidade da Amazon não explicita o fato de que humanos possam ouvir a gravações e sua explicação sobre “Alexa, dispositivos Echo e sua privacidade” também deixa de fora essas informações, especificando apenas que seus aparelhos apenas capturam ou transmitem gravações quando a Alexa acredita ter sido deliberadamente ativada.

No ano passado, a revista Wired publicou que técnicas de “aprendizado ativo” na qual o sistema identifica áreas em que poderia ser melhorado por meio da assistência humana “ajudou substancialmente a diminuir as taxas de erro da Alexa”. A Wired escreveu que ao adicionar o suporte para “aprendizado transferido”, onde a Alexa tenta aplicar as habilidades aprendidas anteriormente em novas tarefas ajudou os desenvolvedores a “reduzir o trabalho sujo que teriam que enfrentar”.

A novidade é o “autoaprendizado”, no qual a Alexa tenta pegar dicas de contexto para entender os comandos que não são submetidos de uma forma muito específica (por exemplo: “Alexa, toque a rádio The Bone 102.5 FM” versus “Alexa, toque The Bone”). De acordo com a Wired, a Amazon planeja que no futuro a Alexa reconheça a emoção dos usuários, característica que críticos apontaram ter o potencial de empregar táticas de marketing manipuladoras.

Em um artigo publicado na Scientific American no mês passado, o diretor de ciência aplicada da Amazon, Ruhi Sarikaya argumentou que essas enormes quantidades de dados em breve precisarão da análise de que os sistemas de reconhecimento de voz terão de mudar de um modelo de aprendizagem “supervisionado” para uma aprendizagem “semisupervisionado, fracamente supervisionado e não supervisionado”. “Nossos sistemas precisam aprender a melhorar a si mesmos”, completou”.

O uso de humanos para análise de áudios e aprimoramento das assistentes é comum em todas as empresas de assistentes digitais. O que muda é a maneira como isso é feito. De acordo com a Bloomberg, um artigo técnico da Apple diz que a assistente de voz Siri só alista humanos para analisar gravações que “não tenham informações pessoalmente identificáveis” e que os dados “são armazenadas por seis meses ligadas a um identificador aleatório”, mas que depois são retiradas dessas identificações para armazenamento de longo prazo. Os auditores do Google só acessam áudios que foram distorcidos.

[Bloomberg]