abril 16, 2024

CubaComunica

Spanish News Today para obtener las últimas noticias, estilo de vida y información turística en inglés en España.

Stability anuncia Stable Diffusion 3, un creador de imágenes de IA de próxima generación

Stability anuncia Stable Diffusion 3, un creador de imágenes de IA de próxima generación

Acercarse / Difusión estable de tercera generación con vector: retrato de estudio en primer plano de un camaleón sobre un fondo negro.

Stability AI anunció el jueves Stable Diffusion 3, un modelo de síntesis de imágenes de próxima generación con pesos abiertos. Sigue a sus predecesores al crear imágenes detalladas de múltiples temas con calidad y precisión mejoradas en la creación de texto. El breve anuncio no estuvo acompañado de una manifestación pública, pero la estabilidad fue Lista de espera abierta Hoy es para aquellos que quieran probarlo.

Stable dice que la familia de modelos Stable Diffusion 3 (que toma descripciones de texto llamadas «indicaciones» y las convierte en imágenes correspondientes) tiene un tamaño que oscila entre 800 millones y 8 mil millones de parámetros. La báscula permite ejecutar localmente diferentes versiones del modelo en una variedad de dispositivos, desde teléfonos inteligentes hasta servidores. El tamaño del parámetro corresponde aproximadamente a la capacidad del modelo en términos de la cantidad de detalles que puede generar. Los modelos más grandes también requieren más VRAM en los aceleradores de GPU para funcionar.

Desde 2022, hemos visto a Stable lanzar su evolución de modelos de generación de imágenes con IA: Stable Diffusion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo y ahora 3. Stability se ha hecho un nombre por ofrecer una alternativa más abierta a los modelos propietarios de síntesis de imágenes como DALL-E 3 de OpenAI, aunque no está exento de controversia debido al uso de capacitación con derechos de autor. datos. Sesgo y potencial de abuso. (Esto dio lugar a demandas sin resolver). Los modelos de difusión de estado estacionario eran de código abierto y ponderados, lo que significa que los modelos podían ejecutarse localmente y ajustarse para cambiar sus resultados.

En cuanto a las mejoras técnicas, el director ejecutivo de Stability, Imad Mushtaq, dijo libros Sobre el

READ  La serie Samsung Galaxy S22 obtiene la mayor actualización de cámara en meses

Como dijo Mostaque, la familia Stable usa Diffusion 3 Estructura de transformadores de difusión.un nuevo método de creación de imágenes utilizando inteligencia artificial que reemplaza los componentes básicos de imágenes habituales (p. ej. Arquitectura UNET) para un sistema que funciona en pequeñas partes de la imagen. Este método está inspirado en los transformadores, que son buenos para lidiar con patrones y secuencias. Este enfoque no sólo aumenta la eficiencia, sino que también produce imágenes de mayor calidad.

También se utiliza Difusión Estable 3”Coincidencia de flujo«, una técnica para crear modelos de inteligencia artificial que pueden crear imágenes aprendiendo cómo pasar de un ruido aleatorio a una imagen suavemente estructurada. Lo hace sin tener que simular cada paso del proceso y, en cambio, se centra en la dirección o flujo general que debería seguir la creación de la imagen.

Comparando la salida entre DALL-E 3 y Stable Diffusion 3 de OpenAI con el enrutador, "Imagen nocturna de coche deportivo con texto. "SD3" En el lateral, el coche circula por una pista de carreras a alta velocidad, con una enorme señal de tráfico escrita en él.
Acercarse / Comparación del resultado entre DALL-E 3 de OpenAI y Stable Diffusion 3 con el reclamo «Imagen nocturna de un auto deportivo con el texto ‘SD3’ en el costado, auto en una pista de carreras a alta velocidad, enorme señal de tráfico con el texto ‘Faster ‘.»

No tenemos acceso al Stable Diffusion 3 (SD3), pero según las muestras que encontramos publicadas en el sitio web de Stable y las cuentas de redes sociales asociadas, el Generation parece más o menos comparable a otros modelos de fotomontaje modernos en este momento. Incluyendo el ya mencionado DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney y Google Imagen.

SD3 parece manejar muy bien la generación de texto en ejemplos proporcionados por otros, que probablemente hayan sido seleccionados cuidadosamente. La generación de texto ha sido una debilidad particular en los modelos de montaje de imágenes anteriores, por lo que mejorar esta capacidad en forma libre es un gran problema. Además, la precisión de la velocidad (qué tan cerca sigue las descripciones en las indicaciones) parece similar a la del DALL-E 3, pero aún no lo hemos probado nosotros mismos.

READ  SpaceX prueba el lanzamiento del cohete por segunda vez

Si bien Stable Diffusion 3 no está ampliamente disponible, Stability dice que una vez que se completen las pruebas, sus pesas se podrán descargar y ejecutar localmente de forma gratuita. «Esta fase de vista previa, al igual que con los modelos anteriores, es fundamental para recopilar ideas para mejorar su rendimiento y seguridad antes del lanzamiento abierto», escribió Stability.

Recientemente se ha experimentado con estabilidad con una variedad de arquitecturas de montaje de imágenes. Además de SDXL y SDXL Turbo, la compañía anunció la semana pasada Cascada estableque utiliza un proceso de tres etapas para superponer texto a una imagen.

Imagen de listado por Imad Mushtaq (IA para la estabilidad)