Recentemente o criador de conteúdo Dario Centurione, do canal Almanaque SOS foi vítima de golpe com clonagem de voz por IA.
O pai dele perdeu uma quantia de dinheiro após receber a clássica ligação, de número desconhecido, pedindo uma transferência rápida para a conta de um amigo após a suposta perda do celular.
Um golpe comum, com uma grande diferença: ele ouvia o filho do outro lado da linha.
E para entendermos mais desse assunto, e como se proteger, conversamos com Felipe Wasserman especialista em marketing digital e sócio da Bevbox, primeiro drink pronto para beber em embalagem Tetra Pak do Brasil, marca pertencente à empresa Babuxca.
Victor Hugo Cavalcante: Primeiro, agradeço por mais uma vez participar de uma entrevista conosco, e gostaria de começar perguntando: O que é a clonagem de voz por inteligência artificial e como ela funciona?
Felipe Wasserman: A clonagem de voz por inteligência artificial é uma técnica que permite criar uma voz sintética a partir de uma amostra de voz de uma pessoa real. Atualmente, com o aumento da tecnologia é possível clonar uma voz com apenas cinco segundos.
O funcionamento da clonagem de voz por inteligência artificial geralmente envolve as seguintes etapas:
- Coleta de dados: são necessários dados de áudio da voz de origem. Quanto mais dados forem coletados, mais preciso será o modelo gerado.
- Pré-processamento dos dados: remover ruídos indesejados, normalizar o volume e extrair recursos acústicos relevantes, como frequências e padrões.
- Treinamento do modelo: geralmente usa uma rede neural. Durante o treinamento, o modelo aprende a mapear os recursos do áudio da voz de origem para as características da fala.
- Síntese da voz: uma vez que o modelo tenha sido treinado, ele pode ser usado para sintetizar a voz clonada.
Victor Hugo Cavalcante: O que diferencia esses aplicativos de clonagem de voz por inteligência artificial de emuladores de voz, por exemplo?
Os emuladores de voz são programas ou algoritmos que tentam imitar ou reproduzir vozes de pessoas famosas, personagens fictícios ou estilos específicos de fala.
Eles não se baseiam no treinamento com dados da voz da pessoa original (como na clonagem via IA), mas sim em técnicas de processamento de áudio e manipulação de voz para alcançar um efeito desejado.
Os emuladores de voz geralmente não são personalizados para uma voz específica e podem ser usados para imitar diferentes tipos de vozes.
Victor Hugo Cavalcante: Além do que podemos chamar de Deep Voice existe também o Deep Fake, explique-nos mais sobre essa técnica.
O termo Deep Fake é uma combinação das palavras “deep learning” (aprendizado profundo) e “fake” (falso) e refere-se a uma técnica de manipulação de mídia que usa inteligência artificial (IA) para criar ou alterar conteúdo multimídia de maneira realista.
Os mais famosos Deep Fakes são de vídeos, nos quais os Deep Fakes são usados para substituir o rosto de uma pessoa no vídeo por outro rosto, criando a ilusão de que a pessoa está realmente dizendo ou fazendo algo que ela não fez.
Por exemplo, é possível pegar um vídeo de uma celebridade e trocar o rosto dela pelo rosto de outra pessoa.
Isso pode ter consequências éticas e sérias, pois pode ser usado para criar vídeos falsos de pessoas reais, levando a problemas como difamação, desinformação e manipulação.
É importante ressaltar que os Deep Fakes não se limitam apenas a vídeos.
Também é possível aplicar essa técnica em áudios, imagens e até mesmo em textos, embora a manipulação de vídeos seja a aplicação mais comum e conhecida.
Victor Hugo Cavalcante: Como você entende que a justiça brasileira pode acompanhar as novas tecnologias e coibir golpes utilizando as tecnologias já mencionadas?
Devido ao potencial de abuso dos Deep Fakes, há uma preocupação crescente (e bem real) com a disseminação de informações falsas e com a violação da privacidade das pessoas.
Eu sei que no mundo vários esforços estão sendo feitos para detectar e combater essa tecnologia, como o desenvolvimento de métodos de autenticação de conteúdo e a conscientização do público sobre a existência e os perigos dos Deep Fakes.
Vai ser muito complicado para a justiça coibir e fazer valer a lei em crimes de Deep Fake, como a justiça é demorada o efeito devastador na imagem da pessoa já ocorreu antes que algo possa ser feito.
Fora isso, existem muitos meios de divulgação criptografados como o WhatsApp em que esse tipo de informação viraliza com muita facilidade.
Victor Hugo Cavalcante: na sua opinião como podemos nos proteger de Deep Fakes e Deep Voices?
A dica que damos para o público é quanto é importante ter cautela ao consumir mídia e sempre buscar fontes confiáveis.
Além disso, as plataformas de mídia social e os órgãos reguladores estão trabalhando para desenvolver políticas e ferramentas para detectar e remover Deep Fakes prejudiciais.
Mas, em geral, é muito difícil se proteger de alguém querer usar sua imagem, atualmente são raras as pessoas que não têm suas fotos, vídeos e voz já disponíveis em alguma mídia social.
Victor Hugo Cavalcante: Apesar dos efeitos negativos dessas clonagens de voz, existe alguma maneira dessa tecnologia ser usada de forma benéfica?
Existem várias formas, mas seguem algumas das principais:
- Dublagem e localização de conteúdo: a clonagem de voz pode ser usada para dublagem de filmes, programas de TV e vídeos, permitindo que personagens sejam dublados em diferentes idiomas de maneira mais precisa e natural. Isso pode melhorar a acessibilidade ao conteúdo e ampliar seu alcance global.
- Conteúdo pós-morte: a clonagem da voz e o Deep Fake podem ser usados para trazer de volta à “vida” pessoas que já se foram. Atualmente já temos tecnologia para recriar um show dos Beatles ou do Elvis até com “piadas novas” baseados no histórico de conteúdo que tem dessas pessoas.
- Síntese de voz personalizada: com a clonagem de voz, é possível criar vozes sintéticas personalizadas para pessoas com deficiências vocais ou que perderam a capacidade de falar devido a condições médicas. Essas vozes sintéticas podem ajudar na comunicação e proporcionar uma experiência mais autêntica e personalizada.
- Acessibilidade para pessoas com deficiência visual: a tecnologia de clonagem de voz pode ser usada para transformar texto em fala de maneira mais natural e expressiva. Isso beneficia pessoas com deficiência visual, permitindo-lhes ouvir o conteúdo escrito, como livros, artigos, e-mails e outros documentos.
- Assistentes virtuais e interfaces de usuário: A clonagem de voz pode melhorar a qualidade e a naturalidade dos assistentes virtuais, chatbots e outras interfaces de usuário que utilizam síntese de voz. Isso torna a interação com essas tecnologias mais agradável e eficiente.