El nuevo generador de imágenes de IA de OpenAI traspasa los límites con detalles y resolución rápidos

El miércoles, OpenAI Anunciar DALL-E 3, la última versión del modelo de síntesis de imágenes de IA que presenta integración total con ChatGPT. DALL-E 3 muestra imágenes siguiendo de cerca descripciones complejas y manejando la creación de texto dentro de la imagen (como etiquetas y rótulos), lo cual es un desafío para los modelos anteriores. Actualmente en fase preliminar de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.

Al igual que su predecesor, DALLE-3 es un generador de texto a imagen que crea nuevas imágenes basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no ha publicado ningún detalle técnico sobre DALL-E 3, el modelo de IA en el corazón de versiones anteriores de DALL-E se entrenó en millones de imágenes creadas por artistas y fotógrafos humanos, algunas de las cuales tienen licencia de archivo. Sitios como Shutterstock. Es probable que DALL-E 3 siga la misma fórmula, pero con nuevas técnicas de entrenamiento y un tiempo de entrenamiento computacional más prolongado.

A juzgar por los ejemplos proporcionados por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de fotomontaje radicalmente más capaz que cualquier otro disponible en términos de seguimiento de indicaciones. Si bien los ejemplos de OpenAI han sido cuidadosamente elegidos por su efectividad, parecen seguir fiel y convincentemente instrucciones rápidas para representar objetos con distorsiones mínimas. En comparación con DALL-E 2, OpenAI dice que DALL-E 3 optimiza pequeños detalles como las manos de manera más efectiva, creando imágenes virtualmente atractivas sin la necesidad de piratería o ingeniería rápida.

Imagen de DALL-E 3 proporcionada por OpenAI con el mensaje: «Ilustración de un aguacate sentado en la silla de un terapeuta diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un agujero en el medio. Terapeuta, cuchara, garabatos notas».

Abierto AI
Imagen de DALL-E 3 proporcionada por OpenAI con el reclamo: «Un vasto paisaje hecho enteramente de diferentes carnes se extiende frente al espectador. Delgadas y jugosas colinas de rosbif, árboles de muslos de pollo, ríos de tocino y rocas de cerdo». Crea una escena surrealista”, pero la vista es apetitosa. El cielo está decorado con sol de pepperoni y nubes de salami”.

Abierto AI
Imagen de DALL-E 3 proporcionada por OpenAI con el siguiente mensaje: «Miniatura de una cafetería decorada con plantas de interior. Vigas de madera se entrecruzan arriba, resaltando una estación de bebidas frías con pequeñas botellas y tazas».

Abierto AI
Imagen DALL-E 3 proporcionada por OpenAI con el reclamo: «Un primer plano de un cangrejo ermitaño enclavado en arena húmeda, con espuma de mar cerca y resaltando detalles de su caparazón y textura de arena».

Abierto AI
Imagen de DALL-E 3 proporcionada por OpenAI con el siguiente reclamo: «La artesanía en papel muestra a una niña dándole un suave abrazo a su gato. Ambos se sientan entre macetas, con el gato ronroneando contento mientras la niña sonríe. La escena está decorada con papel hecho a mano. flores y hojas.»

Abierto AI
Imagen DALL-E 3 proporcionada por OpenAI con el reclamo: «Una vista en pixel art de la Torre Coit erguida en Telegraph Hill, con una vista panorámica de la ciudad debajo y pájaros volando alrededor».

Abierto AI
Imagen de DALL-E 3 proporcionada por OpenAI con el reclamo: «Los pequeños reyes de las papas usan coronas majestuosas, se sientan en tronos y supervisan un vasto reino de las papas lleno de temas y castillos de papas».

Abierto AI
Imagen DALL-E 3 proporcionada por OpenAI con el reclamo: «Ilustración de un corazón humano hecho de vidrio transparente, parado sobre un pedestal en medio de un mar tormentoso. La luz del sol atraviesa las nubes, iluminando el corazón y revelando un pequeño universo en su interior. «. «La cita ‘Encuentra el universo dentro de ti’ está grabada en letras negritas en el horizonte».

Abierto AI
Imagen de DALL-E 3 proporcionada por OpenAI con el reclamo: «Mujer de mediana edad de ascendencia asiática, su cabello oscuro con mechones plateados, roto y agrietado, intrincadamente incrustado dentro de un mar de porcelana rota. La porcelana brilla con pintura salpicada. Patrones en una armoniosa mezcla de azul «Brillante y mate, verde, naranja y rojo, su danza se captura en una yuxtaposición surrealista de movimiento y quietud. Su tono de piel, un tono de porcelana claro, añade una cualidad casi mística a su forma».

Abierto AI

En comparación, Midjourney, un modelo de síntesis de imágenes de IA de otro proveedor, muestra bien los detalles realistas, pero aún requiere una cantidad significativa de retoques poco intuitivos con indicaciones para obtener control sobre la salida de la imagen.

READ Los fanáticos de Pokémon confunden al nuevo líder de gimnasio de Paldea, Grosha, para mujeres

El DALL-E 3 también parece manejar texto dentro de imágenes de una manera que sus predecesores no podían (algunos modelos de la competencia como Stable Diffusion XL y Floyd profundo Mejoran en eso.) Por ejemplo, se creó perfectamente una caricatura de aguacate con la cita del personaje, un mensaje que incluía las palabras: «Ilustración de un aguacate sentado en la silla de un terapeuta diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un cráter en el medio. » Encapsulado en un bocadillo.

En particular, OpenAI dice que DALL-E 3 se ha «construido de forma nativa» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, lo que permitirá mejoras conversacionales en las imágenes de una manera que utiliza el asistente de IA como socio de lluvia de ideas. Esto también significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo que podría conducir a nuevas capacidades. El asistente Bing Chat AI de Microsoft, también basado en tecnología OpenAI, ha podido crear imágenes en el chat desde marzo.

La tetera que creó la tormenta

Imagen generada por la inteligencia artificial de DALL-E 3 — Acercarse / Imagen generada por IA DALL-E 3 de «una representación 3D de una taza de café colocada en el alféizar de una ventana durante un día ventoso. La tormenta fuera de la ventana se refleja en el café, con relámpagos en miniatura y ondas turbulentas visibles dentro de la taza. La habitación está poco iluminada, lo que añade una atmósfera dramática”.

Abierto AI

La versión original de DALL-E. apareció en enero de 2021, y OpenAI lanzó su secuela dramáticamente más capaz en abril de 2022, iniciando una nueva era de imágenes generadas por IA con una fanfarria tan asombrosa que cautivó a sus probadores beta cerrados iniciales. Los modelos DALL-E utilizan una tecnología llamada Propagación latente Eso refina el ruido en imágenes que «reconoce» a partir del conocimiento que obtiene del entrenamiento en el conjunto de datos y la guía del vector. La misma tecnología permitió que surgiera el modelo de peso abierto Stable Diffusion en agosto del año pasado.

READ ¡El Pixel Fold de Google es real! Primeras cubiertas de imágenes en vivo - Ars Technica

Dado que DALL-E aprende conceptos sobre imágenes durante el entrenamiento extrayendo un conjunto de datos masivo de obras de arte generadas por humanos, la tecnología de generación de imágenes de IA ha sido muy controvertida desde su introducción el año pasado. La tecnología ha provocado protestas de artistas que temen que reemplace o replique de manera poco ética sus métodos, demandas por infracción de derechos de autor basadas en imágenes robadas utilizadas como datos de entrenamiento sin consultar a los titulares de derechos de autor, y nuevas resoluciones de derechos de autor de la Oficina de Derechos de Autor. . Juez del Tribunal de Distrito.

Como un guiño a estas controversias, OpenAI dice que DALL-E 3 está diseñado para rechazar solicitudes que soliciten una imagen al estilo de un artista en vivo. OpenAI también Proporciona un modelo Los creadores pueden optar por no utilizar sus imágenes para entrenar futuros modelos. Parece poco probable que estas medidas satisfagan a los artistas que normalmente creen que el entrenamiento en IA debería ser solo opcional en lugar de incluirse en los conjuntos de datos de imágenes de forma predeterminada.

Comparación entre — Acercarse / Comparación de “Una expresiva pintura al óleo de un jugador de baloncesto haciendo un mate, representada como una explosión de nebulosa” creada por DALL-E 2 (izquierda) y DALL-E 3 (derecha).

Abierto AI

Actualmente, la política de derechos de autor de EE. UU. establece que sólo las obras de arte creadas por IA no pueden recibir protección de derechos de autor, por lo que técnicamente cualquier imagen creada con DALL-E 3 pasaría a ser de dominio público. Aunque OpenAI no lo reconoce explícitamente, sí dice que «las imágenes que cree con DALL-E 3 son suyas y no necesitan nuestro permiso para reimprimirlas, venderlas o comercializarlas». Este es un cambio marcado con respecto al año pasado cuando OpenAI Uso restringido de la imagen DALE-2 Basado en una licencia que establece que OpenAI “es dueño de todas las generaciones”.

READ Se dice que la nueva adquisición de PlayStation Studio es enorme.

En términos de seguridad, OpenAI dice que, al igual que DALL-E 2, ha implementado filtros de detección de imágenes y palabras clave en DALL-E 3 para limitar su capacidad de producir contenido violento, sexual u odioso. El sistema también está programado para rechazar solicitudes que generan fotografías de figuras públicas por su nombre, lo que causó problemas con el generador de fotografías rival Midjourney, impulsado por inteligencia artificial, cuando creó fotografías falsas del arresto de Donald Trump.

OpenAI dice que trabajó con expertos conocidos como el “Equipo Rojo” para identificar y mitigar riesgos potenciales, como sesgos dañinos o generar propaganda y desinformación. OpenAI no ha ofrecido ninguna palabra sobre el potencial de su herramienta para hacer esto. Doblar el récord histórico Sin embargo, con insultos apenas disimulados, dice que está experimentando con una herramienta de «clasificador de fuente» que podría ayudar a determinar si una imagen fue creada por DALL-E 3 o no.

Por el momento, todavía no tenemos acceso a DALL-E 3 para probarlo, pero OpenAI dice que el generador de imágenes de IA se está sometiendo a pruebas cerradas. Planea ponerlo a disposición de los clientes de ChatGPT Plus y Enterprise «en octubre a través de API y en Labs a finales de este otoño».

José Islas

«Explorador amigable con los hipster. Fanático del café galardonado. Analista. Solucionador de problemas. Alborotador».

El nuevo generador de imágenes de IA de OpenAI traspasa los límites con detalles y resolución rápidos – Ars Technica

La tetera que creó la tormenta

Las mejores habilidades en Stellar Blade para desbloquear al inicio del juego 2024

El evento «Let Loose» de Apple para iPad también incluirá un evento especial en Londres

Los precios de Apple Vision Pro en eBay me entristecen

España Tenis Madrid Open | deporte nacional

Los precios de las propiedades aquí se dispararon durante Covid y ahora se están reduciendo a medida que un número cada vez mayor de casas siguen sin venderse.

«Tortured Poets Department» de Taylor Swift alcanza el número 1 en las listas de Billboard y logra la mayor semana de streaming de la historia

Falcon 9 lanza los satélites de navegación Galileo

La tetera que creó la tormenta

Deja una respuesta Cancelar la respuesta

More Stories

Las mejores habilidades en Stellar Blade para desbloquear al inicio del juego 2024

El evento «Let Loose» de Apple para iPad también incluirá un evento especial en Londres

Los precios de Apple Vision Pro en eBay me entristecen

You may have missed

España Tenis Madrid Open | deporte nacional

Los precios de las propiedades aquí se dispararon durante Covid y ahora se están reduciendo a medida que un número cada vez mayor de casas siguen sin venderse.

«Tortured Poets Department» de Taylor Swift alcanza el número 1 en las listas de Billboard y logra la mayor semana de streaming de la historia

Falcon 9 lanza los satélites de navegación Galileo