abril 28, 2024

CubaComunica

Spanish News Today para obtener las últimas noticias, estilo de vida y información turística en inglés en España.

El nuevo generador de imágenes de IA de OpenAI traspasa los límites con detalles y resolución rápidos – Ars Technica

El nuevo generador de imágenes de IA de OpenAI traspasa los límites con detalles y resolución rápidos – Ars Technica

El miércoles, OpenAI Anunciar DALL-E 3, la última versión del modelo de síntesis de imágenes de IA que presenta integración total con ChatGPT. DALL-E 3 muestra imágenes siguiendo de cerca descripciones complejas y manejando la creación de texto dentro de la imagen (como etiquetas y rótulos), lo cual es un desafío para los modelos anteriores. Actualmente en fase preliminar de investigación, estará disponible para los clientes de ChatGPT Plus y Enterprise a principios de octubre.

Al igual que su predecesor, DALLE-3 es un generador de texto a imagen que crea nuevas imágenes basadas en descripciones escritas llamadas indicaciones. Aunque OpenAI no ha publicado ningún detalle técnico sobre DALL-E 3, el modelo de IA en el corazón de versiones anteriores de DALL-E se entrenó en millones de imágenes creadas por artistas y fotógrafos humanos, algunas de las cuales tienen licencia de archivo. Sitios como Shutterstock. Es probable que DALL-E 3 siga la misma fórmula, pero con nuevas técnicas de entrenamiento y un tiempo de entrenamiento computacional más prolongado.

A juzgar por los ejemplos proporcionados por OpenAI en su blog promocional, DALL-E 3 parece ser un modelo de fotomontaje radicalmente más capaz que cualquier otro disponible en términos de seguimiento de indicaciones. Si bien los ejemplos de OpenAI han sido cuidadosamente elegidos por su efectividad, parecen seguir fiel y convincentemente instrucciones rápidas para representar objetos con distorsiones mínimas. En comparación con DALL-E 2, OpenAI dice que DALL-E 3 optimiza pequeños detalles como las manos de manera más efectiva, creando imágenes virtualmente atractivas sin la necesidad de piratería o ingeniería rápida.

En comparación, Midjourney, un modelo de síntesis de imágenes de IA de otro proveedor, muestra bien los detalles realistas, pero aún requiere una cantidad significativa de retoques poco intuitivos con indicaciones para obtener control sobre la salida de la imagen.

READ  Los fanáticos de Pokémon confunden al nuevo líder de gimnasio de Paldea, Grosha, para mujeres

El DALL-E 3 también parece manejar texto dentro de imágenes de una manera que sus predecesores no podían (algunos modelos de la competencia como Stable Diffusion XL y Floyd profundo Mejoran en eso.) Por ejemplo, se creó perfectamente una caricatura de aguacate con la cita del personaje, un mensaje que incluía las palabras: «Ilustración de un aguacate sentado en la silla de un terapeuta diciendo ‘Me siento tan vacío por dentro’ con un agujero del tamaño de un cráter en el medio. » Encapsulado en un bocadillo.

En particular, OpenAI dice que DALL-E 3 se ha «construido de forma nativa» en ChatGPT y llegará como una característica integrada de ChatGPT Plus, lo que permitirá mejoras conversacionales en las imágenes de una manera que utiliza el asistente de IA como socio de lluvia de ideas. Esto también significa que ChatGPT podrá generar imágenes basadas en el contexto de la conversación actual, lo que podría conducir a nuevas capacidades. El asistente Bing Chat AI de Microsoft, también basado en tecnología OpenAI, ha podido crear imágenes en el chat desde marzo.

La tetera que creó la tormenta

Imagen generada por la inteligencia artificial de DALL-E 3
Acercarse / Imagen generada por IA DALL-E 3 de «una representación 3D de una taza de café colocada en el alféizar de una ventana durante un día ventoso. La tormenta fuera de la ventana se refleja en el café, con relámpagos en miniatura y ondas turbulentas visibles dentro de la taza. La habitación está poco iluminada, lo que añade una atmósfera dramática”.

Abierto AI

La versión original de DALL-E. apareció en enero de 2021, y OpenAI lanzó su secuela dramáticamente más capaz en abril de 2022, iniciando una nueva era de imágenes generadas por IA con una fanfarria tan asombrosa que cautivó a sus probadores beta cerrados iniciales. Los modelos DALL-E utilizan una tecnología llamada Propagación latente Eso refina el ruido en imágenes que «reconoce» a partir del conocimiento que obtiene del entrenamiento en el conjunto de datos y la guía del vector. La misma tecnología permitió que surgiera el modelo de peso abierto Stable Diffusion en agosto del año pasado.

READ  ¡El Pixel Fold de Google es real! Primeras cubiertas de imágenes en vivo - Ars Technica

Dado que DALL-E aprende conceptos sobre imágenes durante el entrenamiento extrayendo un conjunto de datos masivo de obras de arte generadas por humanos, la tecnología de generación de imágenes de IA ha sido muy controvertida desde su introducción el año pasado. La tecnología ha provocado protestas de artistas que temen que reemplace o replique de manera poco ética sus métodos, demandas por infracción de derechos de autor basadas en imágenes robadas utilizadas como datos de entrenamiento sin consultar a los titulares de derechos de autor, y nuevas resoluciones de derechos de autor de la Oficina de Derechos de Autor. . Juez del Tribunal de Distrito.

Como un guiño a estas controversias, OpenAI dice que DALL-E 3 está diseñado para rechazar solicitudes que soliciten una imagen al estilo de un artista en vivo. OpenAI también Proporciona un modelo Los creadores pueden optar por no utilizar sus imágenes para entrenar futuros modelos. Parece poco probable que estas medidas satisfagan a los artistas que normalmente creen que el entrenamiento en IA debería ser solo opcional en lugar de incluirse en los conjuntos de datos de imágenes de forma predeterminada.

Comparación entre
Acercarse / Comparación de “Una expresiva pintura al óleo de un jugador de baloncesto haciendo un mate, representada como una explosión de nebulosa” creada por DALL-E 2 (izquierda) y DALL-E 3 (derecha).

Abierto AI

Actualmente, la política de derechos de autor de EE. UU. establece que sólo las obras de arte creadas por IA no pueden recibir protección de derechos de autor, por lo que técnicamente cualquier imagen creada con DALL-E 3 pasaría a ser de dominio público. Aunque OpenAI no lo reconoce explícitamente, sí dice que «las imágenes que cree con DALL-E 3 son suyas y no necesitan nuestro permiso para reimprimirlas, venderlas o comercializarlas». Este es un cambio marcado con respecto al año pasado cuando OpenAI Uso restringido de la imagen DALE-2 Basado en una licencia que establece que OpenAI “es dueño de todas las generaciones”.

READ  Se dice que la nueva adquisición de PlayStation Studio es enorme.

En términos de seguridad, OpenAI dice que, al igual que DALL-E 2, ha implementado filtros de detección de imágenes y palabras clave en DALL-E 3 para limitar su capacidad de producir contenido violento, sexual u odioso. El sistema también está programado para rechazar solicitudes que generan fotografías de figuras públicas por su nombre, lo que causó problemas con el generador de fotografías rival Midjourney, impulsado por inteligencia artificial, cuando creó fotografías falsas del arresto de Donald Trump.

OpenAI dice que trabajó con expertos conocidos como el “Equipo Rojo” para identificar y mitigar riesgos potenciales, como sesgos dañinos o generar propaganda y desinformación. OpenAI no ha ofrecido ninguna palabra sobre el potencial de su herramienta para hacer esto. Doblar el récord histórico Sin embargo, con insultos apenas disimulados, dice que está experimentando con una herramienta de «clasificador de fuente» que podría ayudar a determinar si una imagen fue creada por DALL-E 3 o no.

Por el momento, todavía no tenemos acceso a DALL-E 3 para probarlo, pero OpenAI dice que el generador de imágenes de IA se está sometiendo a pruebas cerradas. Planea ponerlo a disposición de los clientes de ChatGPT Plus y Enterprise «en octubre a través de API y en Labs a finales de este otoño».