Cualquiera puede hacer sonreír a Vladimir Putin

¿Esta última versión de captura de movimiento facial significará que ya no podemos confiar en los videos en línea? No necesariamente. Pero es bastante rápido.

Aparentemente, todo lo que se necesita para hacer sonreír a Vladimir Putin es que alguien más sonría, una cámara web y un buen hardware de gráficos.

Los científicos informáticos de la Universidad de Erlangen-Nuremberg, el Instituto Max Planck de Informática y la Universidad de Stanford han desarrollado un enfoque para la captura de movimiento facial que logra lo que el equipo llama resultados "fotorrealistas" utilizando equipos que la mayoría de nosotros tenemos en casa. Y lo hace en tiempo real.

Algunos lo llaman la sentencia de muerte del video en línea como evidencia. Otros simplemente están impresionados:el video de demostración del sistema, llamado Face2Face, es bastante notable.

En la publicación de marzo de 2016, los investigadores muestran lo que su software puede hacer con un "actor" en vivo, una cámara web y imágenes de YouTube del presidente ruso, por lo general estoico. A medida que el actor pasa por una variedad de expresiones faciales frente a una cámara web, cada expresión aparece simultáneamente en el rostro de Putin en el video. Cuando el actor hace movimientos de boca como los de un pez, Putin hace movimientos de boca como los de un pez. Cuando el actor sonríe de repente, Putin también lo hace. Y todo parece real.

Captura de movimiento y recreación

La captura de movimiento, o mocap, es esencialmente el proceso de convertir los movimientos de una persona en vivo en datos de computadora y luego aplicar esos datos a una forma digitalizada diferente. La tecnología tiene varias aplicaciones, incluso en el entrenamiento deportivo y la medicina, pero probablemente sea más conocida por su trabajo en películas.

Al igual que los sistemas de captura de movimiento que animaron a Gollum en "El Señor de los Anillos" y le dieron a Benjamin Button las expresiones faciales de Brad Pitt, el software Face2Face captura movimientos de una fuente en vivo y los recrea en un objetivo digital. Pero en este caso, el objetivo no es generado por computadora (aunque el sistema también puede hacerlo). Es el rostro de una persona real en un video RGB pregrabado.

En este, puede ver el actor de origen (que está en vivo) y el actor de destino, Putin (extraído de un clip), y cómo los dos encajan en la recreación en tiempo real.

Las cámaras estándar son RGB:registran datos de sensores de color rojo, verde y azul. Los sistemas de captura de movimiento suelen utilizar cámaras RGB-D (como Microsoft Kinect), que agregan un sensor de profundidad.

Según los autores del proyecto, existen otros sistemas de captura de movimiento facial que funcionan con metraje RGB, pero no en tiempo real.

En (menos de) un abrir y cerrar de ojos

Tal como lo describe el coautor Justus Thies, instructor de informática en la Universidad de Erlangen-Nuremberg en Alemania, el proceso de captura y recreación comienza con el modelado. El software analiza las imágenes de la cámara web de la fuente (el artista en vivo) y las imágenes de video del objetivo (Putin), recopilando datos sobre los rasgos faciales y los movimientos. Solo necesita unos seis fotogramas, según Thies. Luego, el software usa estos datos para hacer ajustes a los modelos faciales sintéticos más parecidos en la base de datos del software, produciendo modelos tridimensionales precisos de ambas caras.

Luego, Thies escribe en un correo electrónico:"Conociendo la geometría de dos personas, podemos transferir las expresiones de una persona a otra en función de una nueva técnica de transferencia de deformación". Esto es exclusivo de Face2Face. Realiza un seguimiento de la forma en que el modelo facial de la fuente se "deforma" para lograr una expresión y aplica esas mismas deformaciones al modelo facial del objetivo.

En última instancia, el software vuelve a renderizar el video de destino utilizando el nuevo modelo de rostro "deformado". Thies dice que el sistema funciona a unos 28 fotogramas por segundo. Esto significa que todo el proceso de modelado, captura y recreación toma alrededor de 0,04 segundos por cuadro de video. Lograr realismo mejorado a esa velocidad es una proeza.

"Los métodos anteriores que se ejecutan en tiempo real utilizan una medida escasa, por ejemplo, algunos puntos característicos alrededor de la boca, los ojos y la silueta", escribe Thies. Face2Face, por otro lado, mira cada píxel que comprende la cara.

Thies atribuye la capacidad de hacer todo esto en tiempo real a la "implementación eficiente en las GPU modernas".

Más allá de las películas

Los autores creen que Face2Face podría eventualmente ayudar a Hollywood a generar expresiones más realistas en rostros generados por computadora, así como a realizar ajustes en los rostros de actores reales que ya están en la película. También se adapta bien al doblaje de películas extranjeras, que podría ser más aceptable si los movimientos de la boca de los actores coinciden con el diálogo traducido. (Un usuario de HotAir.com se pregunta cuánto tiempo nos queda antes de que James Dean comience a aparecer en nuevos roles).

Sin embargo, las aplicaciones más notables pueden ser las del día a día. La capacidad de manipular rostros no solo de manera realista y en tiempo real, sino también en objetivos en línea plantea algunas posibilidades interesantes. Los avatares de videojuegos podrían reflejar con mayor precisión las expresiones faciales de los jugadores mientras juegan. En teleconferencias internacionales y transmisiones de televisión en vivo, las bocas de los oradores se pueden volver a representar sobre la marcha para que coincidan con las palabras de sus traductores. Los autores ven aplicaciones en la detección de fraudes, donde el software podría localizar inconsistencias faciales "analizando las expresiones rastreadas en una secuencia de video y comparándolas con una secuencia de video de referencia".

Algo de esto está lejos. Pero el proyecto aún está en marcha.

Por ahora, puede poner una gran sonrisa en el rostro de Vladimir Putin en una fracción de segundo y hacer que parezca real. Sin duda, es una partitura para la manipulación de videos, pero como señala Martin Anderson en The Stack, hasta que la simulación de voz alcance el mismo nivel de realismo, la prueba de video sigue siendo relativamente segura.