STABLE CASCADE, IL NUOVO MODELLO GENERATIVO DI STABILITY AI

Stable Diffusion è un modello text-to-image tramite cui, inserendo input testuali, si otterranno immagini non solo creative e accattivanti, ma anche di elevata qualità. A differenza di Stable Diffusion, Stable Cascade non è un LLM (modello linguistico di grandi dimensioni), bensì si tratta di tre diversi modelli basati sull’architettura Würstchen. Il primo comprime i prompt di testo per poi passarli agli stadi A e B che si occuperanno della decodificazione delle richieste. Questa suddivisione dei prompt porta ad una riduzione della memoria necessaria e un minor tempo di completamento, a fronte di prestazioni migliori anche a livello di qualità. Secondo quanto emerso, in un test Stable Cascade ha impiegato 10 secondi per generare un’immagine, rispetto ai 22 secondi impiegati dal modello SDXL attualmente utilizzato. 

Il nuovo strumento non si limita a generare immagini, ma è anche in grado di fornire variazioni all’immagine creata e di aumentare la risoluzione di fotografie già esistenti. Inoltre, introduce numerose novità come per esempio, la modifica del testo nelle immagini o l’inpainting e l’outpanding, tecniche per ricostruire parti di immagini digitali. Un’altra funzionalità è “Canny Edge”, che permette di creare nuove immagini a partire dai bordi di foto già esistenti. Grazie a queste e molte altre nuove funzioni, Stable Cascade è destinato a dare un apporto fondamentale al settore e ad avere diffusione su larga scala.  

L’approccio di Stable Cascade è open source, pertanto gli utenti potranno scaricare senza difficoltà il software, e utilizzarlo in qualsiasi momento.  Al momento però, il nuovo modello non è disponibile per uso commerciale, ma può essere usato solo da sviluppatori e ricercatori, nella sua anteprima rilasciata su GITHUB. 

 

A.L.R