Nuevo hito de la Inteligencia Artificial: ahora puede reconstruir un rostro a través del habla

Una algoritmo de Inteligencia Artificial desarrollado por el Instituto Tecnológico de Massachusetts (MIT), en Estados Unidos, pudo reconstruir el aspecto del rostro de una persona a partir de una grabación de su voz. Se trata de Speech2Face, que fue entrenado usando millones de clips de audio de más de 100.000 hablantes distintos, muchos de ellos procedentes de vídeos…

Nuevo hito de la Inteligencia Artificial: ahora puede reconstruir un rostro a través del habla

Una algoritmo de Inteligencia Artificial desarrollado por el Instituto Tecnológico de Massachusetts (MIT), en Estados Unidos, pudo reconstruir el aspecto del rostro de una persona a partir de una grabación de su voz

Se trata de Speech2Face, que fue entrenado usando millones de clips de audio de más de 100.000 hablantes distintos, muchos de ellos procedentes de vídeos educativos de Youtube.

El laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT (MIT CSAIL) publicó esta herramienta que es capaz también de determinar factores como la edad, el género y la etnia de una persona.

Mirá también

Newsletters Clarín

Lo más leído del día | Enterate de que se habló hoy para no quedarte afuera del mundo

De lunes a viernes por la tarde.

Recibir newsletter

Los autores del estudio aseguraron que su objetivo “no es reconstruir una imagen precisa de la persona, sino más bien recuperar características físicas que están correlacionadas con el habla”.

Este proyecto busca determinar hasta qué punto es posible configurar el aspecto de una persona a partir de su voz, y se inspira en la manera en que las personas construimos modelos de los rasgos de alguien de quien solamente conocemos su voz.

Speech2Face.

Speech2Face funciona a través de una red neuronal de aprendizaje profundo diseñada y entrenada a partir de la base de datos abierta AVSpeech, compuesta por más de 100.000 personas hablando en fragmentos cortos de seis segundos.

Para demostrar sus resultados, la investigación empleó también la base de datos VoxCeleb, formada por millones de vídeos publicados en Internet en los que aparecen 7.000 personas famosas en entrevistas, en fragmentos cortos de al menos tres segundos.

La imagen generada es la del rostro de una persona de frente, con gesto neutro, y fueron expuestas como ejemplo junto a imágenes reales de los famosos en los vídeos para mostrar el parecido con el original.

Así funciona Speech2Fac.

Sin embargo, el algoritmo todavía presenta algunos sesgos que evidencian que el dataset en el que se basó su entrenamiento es algo incompleto.

Speech2Face, por ejemplo, genera imágenes de hombres blancos cuando escucha asiáticos hablando inglés, pese a que cuando éstos pasan a hablar chino, sí identifica su etnicidad correctamente.

“Si cierto idioma no aparece en los datos de entrenamiento, nuestras reconstrucciones no capturarán bien los atributos faciales que podrían estar correlacionados con ese lenguaje”, aclararon desde el MIT. 

Las especulaciones en torno a este algoritmo y su posible uso comercial estaría emparentado con la posibilidad de generar una imagen representativa de nuestro interlocutor cuando estemos manteniendo una llamada telefónica.

Fuente: Portaltic