Vozes sintéticas criadas por IA estão muito semelhantes a vozes humanas, diz estudo
Realizado pela universidade Queen Mary University of London, o estudo junto participantes para ouvir áudios reais e sintéticos e discutir sobre eles

Recentemente, uma pesquisa mostrou a evolução das vozes geradas por inteligência artificial, que são construídas em ferramentas de síntese de voz de última geração. Hiper-realistas, os áudios artificiais estão cada vez mais se tornando impossíveis de diferenciar dos sons reais e áudios humanos, a conclusão dos estudos afirma que o ouvinte médio não consegue mais distinguir qual é qual.
Douglas Torres, um brasileiro especialista em inteligência artificial e CEO da YUP AI, chegou a analisar a pesquisa e como a tecnologia está deixando de ser apenas robótica e se tornando aos poucos mais humanizada, para o bem e o para o mal. “As vozes [artificiais] já carregam emoção, contexto e até o tom de voz.” contou Douglas.
Para realizar a pesquisa, um grupo selecionado avaliou as vozes reproduzidas e escolheram quais soavam mais realistas, dominantes e confiáveis.
Evolução rápida
Para a Dra. Nadine Lavan, professora sênior de psicologia na Queen Mary University of London, universidade que fez o estudo, era apenas uma “questão de tempo” até que os aprimoramentos da tecnologia de IA produzisse falas mais naturais e menos computadorizadas. Lavan também foi coautora da pesquisa.
O objetivo central da pesquisadora é entender como as pessoas percebem essas vozes hiper-realistas agora que as ferramentas estão mais sofisticadas e acessíveis, para a tese, Dra. Nadine contou que os áudios foram criados de forma simples e rápida, demonstrando de início a capacidade atual dessa tecnologia.
Como o Vishing consegue capturar dados pessoais? (Vídeo: reprodução/Youtube/@senaisaopauloSP)
Golpes de vishing
Nos últimos anos, um tipo de golpe por telefone começou a circular pelo Brasil e outros países, chamado “Vishing”. Nele, mistura-se vozes sintetizadas com o golpe de fraude digital, o “pishing”, criando ligações telefônicas onde o criminoso engana a vítima atrás de dados confidenciais, muitas vezes bancários, senhas ou conseguindo autorização para realizar transferências utilizando vozes falsas que imitam a programação de bancos ou até de familiares de quem recebeu a ligação.
A inteligência artificial infelizmente também é usada em outros crimes como golpes por pix que funcionam a base do “Deepfake”, onde são criados vídeos de autoridades ou figuras públicas divulgando investimentos de alta rentabilidade, pedidos de ajuda e arrecadação de dinheiro totalmente falsos.
Acessibilidade e educação
Pelos estudos, a professora sênior acredita que entre casos negativos, ainda sim é possível encontrar formas de usufruir da ferramenta além de enganar os ouvintes.
Com vozes mais humanas, algo que cria mais conforto entre o robô e o usuário as vozes sintéticas com uma alta qualidade, podem ser usadas na comunicação, educação e para acessibilidade, aprimorando situações tanto do cotidiano quanto em áreas específicas de aprendizado e convivência, para pessoas com deficiência ou não.