A IA que imagina seu rosto apenas ouvindo sua voz

Realmente a tecnologia da inteligência artificial está cada vez mais surpreendente.

Hoje eu li sobre uma tal “Speech2Face”. Trata-se de uma rede neural avançada desenvolvida por cientistas do MIT e treinada para reconhecer certas características faciais e reconstruir os rostos das pessoas apenas ouvindo o som de suas vozes.

Será possível?

Você provavelmente já ouviu falar sobre câmeras alimentadas por IA que podem reconhecer pessoas apenas analisando suas características faciais, mas e se houvesse uma maneira de a inteligência artificial descobrir como você é apenas pelo som da sua voz e sem comparar sua aparência? 

Parece algo impossível, mas é exatamente nisso que uma equipe de cientistas do MIT está trabalhando, e os resultados de seu trabalho me impressionou. Embora sua rede neural, chamada Speech2Face, ainda não consiga descobrir as características faciais precisas de um humano apenas por sua voz, é desconcertante como ela  acerta muitos detalhes.

“Nosso modelo foi projetado para revelar correlações estatísticas que existem entre as características faciais e as vozes dos falantes nos dados de treinamento”, disseram os criadores do Speech2Face . “Os dados de treinamento que usamos são uma coleção de vídeos educacionais do YouTube e não representam igualmente toda a população mundial. Portanto, o modelo – como é o caso de qualquer modelo de aprendizado de máquina – é afetado por essa distribuição desigual de dados.”

Você pode dizer muito sobre uma pessoa pela maneira como ela fala sozinha. Por exemplo, você provavelmente pode dizer se alguém é homem ou mulher, ou se é jovem ou velho, mas o Speech2Face vai além disso. Ele pode determinar com bastante precisão a forma do nariz, maçãs do rosto ou mandíbula de alguém apenas pela voz, porque a maneira como o nariz e outros ossos em nossos rostos são estruturados determina a maneira como soamos.

A etnia também é uma das coisas que o Speech2Face pode identificar com precisão ao ouvir a voz de alguém por apenas alguns milissegundos, já que pessoas que vêm dos mesmos grupos tendem a ter atributos semelhantes. A IA leva em consideração vários fatores e, às vezes, produz resultados impressionantes, mas ainda é um trabalho em andamento.

Em alguns casos, a IA teve dificuldade em determinar a aparência do orador. Fatores como sotaque, linguagem falada e tom de voz causaram grandes incompatibilidades de fala a face em que gênero, idade ou etnia estavam completamente incorretos. Por exemplo, homens com uma voz particularmente aguda eram frequentemente identificados como femininos, enquanto as mulheres com voz grave eram identificadas como masculinas. Os asiáticos que falam inglês fluentemente também pareciam menos asiáticos do que quando falavam sua língua nativa.

“De certa forma, o sistema é um pouco como seu tio racista. Ele sente que sempre pode dizer a raça ou etnia de uma pessoa com base na maneira como ela fala, mas muitas vezes ele está errado”, disse o fotógrafo Thomas Smith sobre Speech2Face.

Ainda assim, apesar de suas limitações, o Speech2Face oferece uma visão do futuro da tecnologia de inteligência artificial que impressiona e aterroriza a maioria das pessoas. Imagine um futuro em que apenas alguns milissegundos de tempo de voz sejam suficientes para que uma rede neural monte um retrato preciso. Claro, isso pode ajudar a identificar criminosos, mas o que impede os maus atores de usar a mesma tecnologia para fins nefastos?

Receba o melhor do nosso conteúdo

Cadastre-se, é GRÁTIS!

Não fazemos spam! Leia nossa política de privacidade

Philipe Kling David
Philipe Kling Davidhttps://www.philipekling.com
Artista, escritor, formado em Psicologia e interessado em assuntos estranhos e curiosos.

Artigos similares

Comentários

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Últimos artigos

Gripado

O dia da minha quase-morte

Palavras têm poder?