Los videos en tiempo real podrían ser el próximo salto en la tecnología de IA

Ian Sansavera, ingeniero de software de una startup de Nueva York llamada Runway AI, escribió una breve descripción de lo que quería ver en un video. Libros «Río tranquilo en el bosque».

Menos de dos minutos después, un servicio de Internet de prueba produjo un breve videoclip de un río en calma en un bosque. El agua corriente del río resplandecía bajo el sol cuando atravesaba los árboles y los helechos, doblaba una esquina y chapoteaba suavemente contra las rocas.

Runway, que planea abrir su servicio a un pequeño grupo de evaluadores esta semana, es una de varias empresas que desarrollan tecnología de inteligencia artificial que pronto permitirá a las personas crear videos simplemente escribiendo varias palabras en un cuadro en la pantalla de una computadora.

Representan la próxima etapa en la carrera de la industria, una carrera que incluye a gigantes como Microsoft y Google, así como también a empresas emergentes mucho más pequeñas, para crear nuevos tipos de sistemas de inteligencia artificial que algunos creen que podrían ser el próximo gran avance en tecnología, tan importante como los navegadores web. o iPhone.

Los nuevos sistemas de creación de videos pueden acelerar el trabajo de los cineastas y otros artistas digitales, al tiempo que se convierten en una forma nueva y rápida de crear información errónea difícil de detectar en línea, lo que dificulta saber qué es real en línea.

Los sistemas son ejemplos de lo que se conoce como inteligencia artificial generativa, que puede generar instantáneamente texto, imágenes y sonidos. Otro ejemplo es ChatGPT, el chatbot en línea creado por la startup OpenAI de San Francisco, que sorprendió a la industria tecnológica con sus capacidades a fines del año pasado.

Google y Meta, la empresa matriz de Facebook, Presentó sus primeros sistemas de generación de video el año pasado.pero no lo compartieron con el público porque les preocupaba que los sistemas eventualmente pudieran usarse para difundir desinformación con su nueva velocidad y eficiencia.

Pero el director ejecutivo de Runway, Cristóbal Valenzuela, dijo que cree que la tecnología es demasiado importante para mantenerla en un laboratorio de investigación, a pesar de sus riesgos. «Esta es una de las tecnologías más impresionantes que hemos construido en los últimos 100 años», dijo. «Necesitas que la gente realmente lo use».

La capacidad de editar y manipular películas y videos no es nada nuevo, por supuesto. Los cineastas han estado haciendo esto durante más de un siglo. En los últimos años, investigadores y artistas digitales han utilizado varias tecnologías y programas de inteligencia artificial para crear y editar videos que a menudo se denominan videos falsos.

READ Android puede obtener su propia detección de rastreador Bluetooth incorporada

Pero sistemas como el que Runway ha creado podrían, con el tiempo, reemplazar las habilidades de edición con solo presionar un botón.

La tecnología Runway produce videos de cualquier descripción breve. Para comenzar, simplemente escriba una descripción como lo haría con una nota rápida.

Esto funciona mejor si la escena contiene algo de acción, pero no mucha acción, como «Día lluvioso en una gran ciudad» o «Un perro con un teléfono celular en el parque». Presione Entrar y el sistema creará un video en uno o dos minutos.

Esta tecnología puede reproducir imágenes comunes, como un gato durmiendo sobre una alfombra. O puede combinar conceptos dispares para crear videos extrañamente entretenidos, como una vaca en una fiesta de cumpleaños.

Los videos tienen solo cuatro segundos de duración, y el video está entrecortado y borroso si miras de cerca. A veces las imágenes son extrañas, distorsionadas y perturbadoras. El sistema tiene una forma de fusionar animales como perros y gatos con objetos inanimados como pelotas y teléfonos celulares. Pero dada la dirección correcta, está produciendo videos que muestran hacia dónde se dirige la tecnología.

READ Amazon apoya y publica el nuevo Tomb Raider con Crystal Dynamics

«En este punto, si veo un video HD, probablemente voy a confiar en él. Pero eso va a cambiar muy rápidamente», dijo Philip Isola, profesor del MIT que se especializa en inteligencia artificial.

Al igual que otras tecnologías de IA generativa, el sistema de Runway aprende analizando datos numéricos, en este caso, fotos, videos y anotaciones que describen lo que contienen esas imágenes. Al entrenar este tipo de tecnología en cantidades cada vez mayores de datos, los investigadores confían en que pueden mejorar y ampliar rápidamente sus habilidades. Los expertos creen que muy pronto estarán creando minipelículas de aspecto profesional con música y diálogos.

Es difícil decir lo que el sistema está creando actualmente. No es una imagen. No es una caricatura. Es una colección de muchos píxeles mezclados para crear un video realista. La compañía planea introducir su tecnología con otras herramientas que cree que acelerarán el trabajo de los artistas profesionales.

Durante el último mes, las redes sociales han estado llenas de fotos del Papa Francisco con un abrigo acolchado blanco de Balenciaga, un atuendo sorprendentemente moderno para el Papa de 86 años. Pero las imágenes no eran reales. Un trabajador de la construcción de 31 años de Chicago causó gran revuelo Usando una popular herramienta de IA llamada Midjourney.

La Dra. Isola ha pasado años construyendo y probando este tipo de tecnología, primero como investigadora en la Universidad de California, Berkeley y en OpenAI, y luego como profesora en el MIT. Imágenes totalmente falsas del Papa Francisco.

«Hubo un tiempo en que la gente publicaba falsificaciones profundas y no me engañaban, porque era demasiado raro o demasiado poco realista», dijo. «Ahora, no podemos tomar ninguna de las imágenes que vemos en línea al pie de la letra».

Midjourney es uno de los muchos servicios que pueden crear imágenes fijas realistas a partir de un aviso breve. Otras aplicaciones incluyen Stable Diffusion y DALL-E, la tecnología OpenAI que inició esta ola de generadores de imágenes cuando se presentó hace un año.

READ Las 9 mejores ofertas de Cyber Monday TV: QLED por $ 299 ahora

Midjourney se basa en una red neuronal que aprende sus habilidades mediante el análisis de grandes cantidades de datos. Busca patrones mientras revisa millones de imágenes digitales, así como subtítulos de texto que describen las imágenes que se están fotografiando.

Cuando alguien describe una imagen de un sistema, está creando una lista de características que podría tener la imagen. Una característica puede ser la curva en la parte superior de la oreja de un perro. Otro puede ser el borde del teléfono móvil. A continuación, una segunda red neuronal, llamada modelo de difusión, genera la imagen y genera los píxeles necesarios para los atributos. Finalmente, convierte los píxeles en una imagen coherente.

Empresas como Runway, que tiene unos 40 empleados y ha recaudado 95,5 millones de dólares, están utilizando esta tecnología para crear imágenes en movimiento. Mediante el análisis de miles de videoclips, su tecnología puede aprender a unir muchas imágenes fijas de manera coherente similar.

“El video es solo una serie de cuadros, imágenes fijas, que se combinan de una manera que da la ilusión de movimiento”, dijo el Sr. Valenzuela. «El truco es entrenar un modelo que comprenda la relación y la coherencia entre cada marco».

Al igual que las primeras versiones de instrumentos como DALL-E y Midjourney, la técnica a veces combina conceptos e imágenes de formas extrañas. Si pides un oso que juega baloncesto, puede que te dé una especie de peluche transformador con baloncesto led. Si le preguntas a un perro con un teléfono móvil en el parque, puede que te dé un cachorro que lleva un teléfono móvil con un cuerpo humano extraterrestre.

Pero los expertos creen que pueden corregir las fallas a medida que entrenan sus sistemas con más y más datos. Creen que la tecnología eventualmente hará que crear un video sea tan fácil como escribir una oración.

«En los viejos tiempos, para hacer algo como esto de forma remota, tenías que tener una cámara. Tenías que tener accesorios. Tenías que tener una ubicación. Tenías que tener permiso», dijo Susan Bonser, autora y editora en Penn. State, que fue Experience la primera encarnación de la tecnología de video generativo, «Deberías haber tenido el dinero». Puedes simplemente sentarte e imaginarlo».

José Islas

«Explorador amigable con los hipster. Fanático del café galardonado. Analista. Solucionador de problemas. Alborotador».

Los videos en tiempo real podrían ser el próximo salto en la tecnología de IA

Una nueva generación de chatbots

Enlaces de La-Tecnologia: 28 de abril de 2024

Las mejores habilidades en Stellar Blade para desbloquear al inicio del juego 2024

El evento «Let Loose» de Apple para iPad también incluirá un evento especial en Londres

¿Renunciará o no? España está a la espera de la decisión del presidente del Gobierno

Musk visita Beijing mientras los autos Tesla fabricados en China aprueban reglas de seguridad

¿Quién quedó fuera cuando el ícono de la música country Shania Twain completó el top diez? [Live Blog] – Derbi de oro

SpaceX lanza 23 satélites Starlink en el vuelo Falcon 9 desde Cabo Cañaveral – Spaceflight Now