Saltar al contenido principalSaltar al pie de página

Robótica

Un robot humanoide aprende a mover los labios, practicar idiomas y cantar simplemente observando videos en YouTube

Los investigadores desarrollaron un sistema de IA que aprende la articulación del habla observando videos, sin reglas preprogramadas

Mirarse al espejo y ver videos online fue suficiente para que un robot aprendiera a hablar.

Mirarse al espejo y ver videos online fue suficiente para que un robot aprendiera a hablar. / Crédito: Jane Nisselson / Columbia Engineering.

Pablo Javier Piacente / T21

Un equipo de especialistas estadounidenses logró que una cara robótica sincronice labios y sonidos humanos mediante aprendizaje automático, un avance que promete transformar la interacción entre personas y máquinas.

Científicos de la Universidad de Columbia, en Estados Unidos, han creado un robot que, por primera vez, es capaz de aprender los movimientos faciales de los labios para tareas como hablar y cantar, mirando a los humanos en videos de YouTube. En un nuevo estudio publicado en la revista Science Robotics, los investigadores demuestran cómo su robot utilizó sus habilidades para articular palabras en una amplia variedad de idiomas, e incluso cantar una canción de su álbum debut generado por IA.

Desarrollando el mapa sensorial de un robot humanoide

El trabajo muestra cómo el robot traduce audio en movimiento labial mediante un rostro equipado con 26 motores y un modelo de aprendizaje de visión a acción, de acuerdo a una nota de prensa. Los investigadores comenzaron con un experimento sencillo, casi como un juego infantil: colocaron la cara robótica frente a un espejo y dejaron que realizara miles de gestos aleatorios, hasta mapear la relación entre la activación de sus motores y la apariencia creada.

A partir de ese mapa sensorial, entrenaron luego una segunda red con videos humanos que mostraban la articulación de los labios en diferentes contextos, de modo que el sistema aprendiera a imitar movimientos naturales sin depender de reglas rígidas.

Para superar la rigidez de las caras humanoides se requirió hardware especializado, una piel flexible y actuadores silenciosos, además de modelos capaces de capturar la compleja dinámica entre fonemas y formas labiales. Aunque se registran dificultades con sonidos explosivos como la "B" y con gestos de fruncido para la "W", los especialistas afirman que la práctica y más datos mejorarán la precisión.

El robot que canta: beneficios y riesgos de "humanizar" máquinas

El robot demostró además habilidades multilingües y para el canto: el equipo publicó una canción interpretada por la máquina en un álbum debut titulado "Hola, Mundo" bajo el nombre EMO, una muestra lúdica de las capacidades del sistema. Este ejercicio artístico subraya aplicaciones potenciales en educación, entretenimiento y cuidado de ancianos, donde una comunicación facial creíble amplía la conexión humano-máquina.

Referencia

Learning realistic lip motions for humanoid face robots. Yuhang Hu et al. Science Robotics (2026). DOI:https://doi.org/10.1126/scirobotics.adx3017

Los datos asociados al estudio están disponibles en repositorios públicos, para facilitar la evaluación independiente y su uso por parte de otros equipos de investigación. El método combina modelos generativos, transformadores de acción facial y videos sintéticos para robustecer el entrenamiento y permitir la sincronización multilingüe. Esa combinación sugiere un camino viable hacia animaciones labiales realistas en robots y avatares.

Sin embargo, aunque "humanizar"' máquinas puede traer beneficios sociales, también supone riesgos de manipulación, suplantación emocional o desinformación, si no se regulan sus usos y límites. Los próximos pasos incluyen aumentar el repertorio de expresiones, probar la interacción prolongada con usuarios reales y desarrollar marcos regulatorios.

Tracking Pixel Contents