Os sistemas de reconhecimento de fala estão se popularizando cada vez mais, seja em alto-falantes inteligentes ou no próprio celular. Se você utiliza com certa frequência, talvez já tenha passado pela frustração de ficar repetindo a mesma frase por que a tecnologia não foi capaz de entender. Acontece que esse tipo de situação parece ser mais comum com um grupo específico de pessoas.

Pesquisadores da Universidade de Stanford analisaram uma extensa amostra de palavras ditas em entrevistas por diferentes grupos usando sistemas de reconhecimento de fala de cinco empresas (Apple, Amazon, Google, IBM e Microsoft). Posteriormente, foi feita uma comparação com os resultados compreendidos por humanos.

Sobre os grupos envolvidos na pesquisa, havia amostras de grupos mistos de locais como Rochester, Nova York; Sacramento, Califórnia; e Washington, D.C., além de ter dois compostos majoritariamente por afro-americanos da Carolina do Norte.

A partir disso, foram atribuídas pontuações chamadas “taxas de erro”. No geral, esse número ficou abaixo de 0,5, sendo que o sistema da Apple foi o que apresentou pior desempenho e o da Microsoft foi o melhor. Porém, algo que chamou a atenção dos pesquisadores foi que as gravações de afro-americanos apresentaram uma taxa de erro quase duas vezes maior que dos brancos.

Enquanto as taxas para homens brancos foi de 0,21 e para mulheres brancas de 0,17, as mulheres negras tiveram uma média de 0,30 e os homens negros de 0,41. Além disso, cerca de 2% dos áudios de pessoas brancas foram considerados irreconhecíveis pelos sistemas, enquanto que para os negros essa taxa aumentou para 20%.

Os motivos para esses resultados podem ter diferentes explicações. Pensando na questão geográfica, por exemplo, a Carolina do Norte é uma área rural conhecida por ter um sotaque forte. No entanto, seria necessária uma amostra muito maior para comprovar essa influência geográfica.

Quando a mesma frase foi pronunciada por negros e brancos, a diferença entre as taxas de erro foi a mesma. Ou seja, é muito provável que o problema seja a forma como os sistemas são treinados para reconhecer sons. Isso significa, portanto, que as empresas não estão treinando dados suficientes que representem corretamente a diversidade da população.

A questão da representatividade nas empresas e, principalmente, em equipes que desenvolvem esse tipo de tecnologia já é uma discussão antiga. A própria Universidade de Stanford, onde esse estudo foi realizado, havia criado um instituto para desenvolver uma inteligência artificial que representasse amplamente a humanidade. O problema? Dentre os mais de 100 membros do corpo docente, não havia um único negro.

[The New York Times, Ars Technica]