Stability anuncia Stable Diffusion 3, un creador de imágenes de IA de próxima generación

Acercarse / Difusión estable de tercera generación con vector: retrato de estudio en primer plano de un camaleón sobre un fondo negro.

Stability AI anunció el jueves Stable Diffusion 3, un modelo de síntesis de imágenes de próxima generación con pesos abiertos. Sigue a sus predecesores al crear imágenes detalladas de múltiples temas con calidad y precisión mejoradas en la creación de texto. El breve anuncio no estuvo acompañado de una manifestación pública, pero la estabilidad fue Lista de espera abierta Hoy es para aquellos que quieran probarlo.

Stable dice que la familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas «indicaciones» y las convierte en imágenes correspondientes) tiene un tamaño que oscila entre 800 millones y 8 mil millones de parámetros. La báscula permite ejecutar localmente diferentes versiones del modelo en una variedad de dispositivos, desde teléfonos inteligentes hasta servidores. El tamaño del parámetro corresponde aproximadamente a la capacidad del modelo en términos de la cantidad de detalles que puede generar. Los modelos más grandes también requieren más VRAM en los aceleradores de GPU para funcionar.

Desde 2022, hemos visto a Stable lanzar su evolución de modelos de generación de imágenes con IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y ahora 3. Stability se ha hecho un nombre por ofrecer una alternativa más abierta a los modelos propietarios de síntesis de imágenes como DALL-E 3 de OpenAI, aunque no está exento de controversia debido al uso de capacitación con derechos de autor. datos. Sesgo y potencial de abuso. (Esto dio lugar a demandas sin resolver). Los modelos de difusión de estado estacionario eran de código abierto y ponderados, lo que significa que los modelos podían ejecutarse localmente y ajustarse para cambiar sus resultados.

Stable Diffusion 3 Generation con reclamo: obra de arte épica de un mago en la cima de una montaña por la noche lanzando un hechizo cósmico en el cielo oscuro que dice «Stable Diffusion 3» hecho de energía colorida.
Imagen generada por IA de una abuela con una sudadera que dice «Ve a lo grande o vete a casa» creada por Stable Diffusion 3.
Difusión estable de tercera generación con aviso: Tres botellas de vidrio transparente sobre una mesa de madera. El de la izquierda tiene líquido rojo y el número 1. El del medio tiene líquido azul y el número 2. El de la derecha tiene líquido verde y el número 3.
Imagen generada por IA con Stable Diffusion 3.
Difusión estable de tercera generación con mensaje: un caballo se balancea sobre una bola de color en un campo con pasto verde y una montaña al fondo.
Propagación de bodegones de tercera generación con mensaje: bodegones de mal humor de calabazas variadas.
Difusión estable de tercera generación con mensaje: una pintura de un astronauta montando un cerdo con un tutú que sostiene un paraguas rosa, en el suelo junto al cerdo hay un petirrojo con sombrero de copa y en la esquina están las palabras «Difusión estable».
Stable Diffusion 3.ª generación con el reclamo: Sobre la mesa de la cocina hay un paño bordado que dice “Buenas noches” y un tigre bebé bordado. Al lado del paño hay una vela encendida. La iluminación es tenue y dramática.
Difusión estable de tercera generación con mensaje: Imagen de una computadora de escritorio de los años 90 en un escritorio, con «Hola» escrito en la pantalla de la computadora. En la pared del fondo vemos unos bonitos graffitis con el texto “SD3” muy grande en la pared.

En cuanto a las mejoras técnicas, el director ejecutivo de Stability, Imad Mushtaq, dijo libros Sobre el

READ Tony Hawk dice que Activision 'canceló el remake 3+4' después de la fusión de Vicarious Visions

Como dijo Mostaque, la familia Stable usa Diffusion 3 Estructura de transformadores de difusión.un nuevo método de creación de imágenes utilizando inteligencia artificial que reemplaza los componentes básicos de imágenes habituales (p. ej. Arquitectura UNET) para un sistema que funciona en pequeñas partes de la imagen. Este método está inspirado en los transformadores, que son buenos para lidiar con patrones y secuencias. Este enfoque no sólo aumenta la eficiencia, sino que también produce imágenes de mayor calidad.

También se utiliza Difusión Estable 3”Coincidencia de flujo«, una técnica para crear modelos de inteligencia artificial que pueden crear imágenes aprendiendo cómo pasar de un ruido aleatorio a una imagen suavemente estructurada. Lo hace sin tener que simular cada paso del proceso y, en cambio, se centra en la dirección o flujo general que debería seguir la creación de la imagen.

Comparando la salida entre DALL-E 3 y Stable Diffusion 3 de OpenAI con el enrutador, "Imagen nocturna de coche deportivo con texto. "SD3" En el lateral, el coche circula por una pista de carreras a alta velocidad, con una enorme señal de tráfico escrita en él. — Acercarse / Comparación del resultado entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el reclamo «Imagen nocturna de un auto deportivo con el texto ‘SD3’ en el costado, auto en una pista de carreras a alta velocidad, enorme señal de tráfico con el texto ‘Faster ‘.»

No tenemos acceso al Stable Diffusion 3 (SD3), pero según las muestras que encontramos publicadas en el sitio web de Stable y las cuentas de redes sociales asociadas, el Generation parece más o menos comparable a otros modelos de fotomontaje modernos en este momento. Incluyendo el ya mencionado DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney y Google Imagen.

SD3 parece manejar muy bien la generación de texto en ejemplos proporcionados por otros, que probablemente hayan sido seleccionados cuidadosamente. La generación de texto ha sido una debilidad particular en los modelos de montaje de imágenes anteriores, por lo que mejorar esta capacidad en forma libre es un gran problema. Además, la precisión de la velocidad (qué tan cerca sigue las descripciones en las indicaciones) parece similar a la del DALL-E 3, pero aún no lo hemos probado nosotros mismos.

READ La polémica continúa el día anterior con el exempleado diciendo que no era un MMO en absoluto

Si bien Stable Diffusion 3 no está ampliamente disponible, Stability dice que una vez que se completen las pruebas, sus pesas se podrán descargar y ejecutar localmente de forma gratuita. «Esta fase de vista previa, al igual que con los modelos anteriores, es fundamental para recopilar ideas para mejorar su rendimiento y seguridad antes del lanzamiento abierto», escribió Stability.

Recientemente se ha experimentado con estabilidad con una variedad de arquitecturas de montaje de imágenes. Además de SDXL y SDXL Turbo, la compañía anunció la semana pasada Cascada estableque utiliza un proceso de tres etapas para superponer texto a una imagen.

Imagen de listado por Imad Mushtaq (IA para la estabilidad)

José Islas

«Explorador amigable con los hipster. Fanático del café galardonado. Analista. Solucionador de problemas. Alborotador».

Stability anuncia Stable Diffusion 3, un creador de imágenes de IA de próxima generación

Primer vistazo a los animales en Mortal Kombat 1 | SDCC 2024

Presentando la nueva interfaz One UI 7 de Samsung

Galaxy Z Flip 6, Z Fold 6 y los nuevos wearables de Samsung salen a la venta

'Daryl Dixon' renovada para la temporada 3, revela mudanza a España

Reacciones de los fans tras la participación de Gojira en la ceremonia inaugural de los Juegos Olímpicos de 2024

La NASA está cerca de decidir qué hacer con la problemática nave espacial Starliner de Boeing

El director ejecutivo de la Federación Canadiense de Fútbol revela el uso de drones en la Copa América y expresa preocupación por la «cultura sistémica arraigada»

Deja una respuesta Cancelar la respuesta

More Stories