
(Ultimo aggiornamento: 28 marzo 2025)– L’evoluzione dei modelli generativi si fa sempre più veloce, e OpenAI propone ora, dal 25 marzo 2025, 4o Image Generation: un sistema di intelligenza artificiale per realizzare immagini partendo da una descrizione testuale (text-to-image), da fotografie personali (image-to-image), prompt multimodali (text+image-to-image), anche a partire da prompt molto lunghi e precisi.
Non si tratta di una rivoluzione assoluta rispetto a quanto visto finora con Midjourney o simili ma sicuramente è un enorme cambiamento rispetto a Dall-E (la generativa fino a oggi integrata in ChatGPT) e alcune funzioni sono davvero notevoli, in particolare per quanto riguarda la gestione delle scritte e la consistency (coerenza) dei personaggi.
Il modello offre alcuni passi avanti che semplificano il lavoro di chi, per passione o professione, deve produrre contenuti visivi.
Le principali novità di 4o Image Generation
Indice dei contenuti
- Le principali novità di 4o Image Generation
- 4o Imagine Generation è “nativamente multimodale”
- 4o Image Generation – Come funziona (in sintesi)
- 4o Image Generator – Esempi pratici
- Un breve fumetto con 4o Image Generation
- Una miniatura per YouTube con 4o Image Generation
- Come accedere a 4o Image Generation
- Prospettive future e raccomandazioni
La serie di modelli che generano immagini partendo da testo è ormai ben popolata, ma 4o Image Generation introduce alcune caratteristiche degne di nota:
- maggiore precisione nella composizione: proporzioni e dettagli anatomici risultano generalmente più coerenti rispetto a versioni precedenti e a modelli concorrenti.
- integrazione di testo più lungo: per locandine, biglietti d’invito o contesti dove sono richieste scritte corpose, il modello fornisce risultati più leggibili e meno deformati.
- gestione di stili misti: dà risultati migliori con prompt che combinano elementi fotografici e generati, come personaggi reali in ambienti di fantasia.
Se già si usavano modelli come DALL·E o Midjourney, il salto non è radicale, ma si notano progressi nei dettagli e nella fedeltà a istruzioni complesse e nell’imagine-to-imagine
4o Imagine Generation è “nativamente multimodale”
L’idea alla base è che i modelli linguistici debbano generare non solo testo ma anche immagini utili alla comunicazione e all’analisi. 4o Image Generation è stato addestrato su una grande varietà di dati testuali e visivi e, per questo, riesce a:
- comprendere prompt complessi (anche lunghi e con più istruzioni).
- incorporare immagini di input (image-to-image) e usarle come ispirazione o base di partenza.
- produrre risultati dove testo e immagine convivono, per esempio locandine, infografiche, menù, fumetti, layout con scritte accurate.
L’obiettivo dichiarato di OpenAI è andare oltre i semplici “scenari surreali” già possibili con altre AI: l’aspirazione è rendere la generazione di immagini uno strumento pratico, in cui simboli, scritte e riferimenti puntuali aiutino a comunicare idee in modo efficace. Il risultato è molto vicino all’intento.
4o Image Generation – Come funziona (in sintesi)
4o Image Generation sfrutta reti neurali addestrate con una varietà di immagini e relative descrizioni. Ecco i due passaggi essenziali:
- Interpretazione del prompt: il sistema “legge” il testo fornito e individua i concetti chiave (persone, ambienti, stili, parole da inserire).
- Generazione dell’immagine: traduce il prompt in un’immagine coerente, curando la resa grafica di sfondi, luci, caratteri tipografici, proporzioni dei soggetti.
Rispetto ai predecessori, 4o Image Generation è stato ottimizzato per incorporare prompt più lunghi e per gestire soggetti ibridi (ad esempio, una nostra foto con dettagli aggiuntivi).
4o Image Generator – Esempi pratici
Eccomi in versione Jedi (da una mia foto)

Ho voluto sperimentare un classico: trasformarmi in Jedi. Ho caricato una mia immagine e chiesto di calarmi in un’ambientazione stellare, con tanto di spada laser.
- Difetti limitati: il volto è riconoscibile senza sbavature surreali, mi ha un po’ migliorato.
- Qualche ritocco: in alcune bozze la spada risultava un po’ deformata, ma con un prompt più specifico (“spada laser di colore verde, forma classica, dettagli nitidi”) si migliora.
Il recinto USB EMMIOH con logo Slow News

È un esempio creativo e particolare. Qualche tempo fa ho immaginato un gadget fatto a forma di recinto plasticoso USB chiamato EMMIOH. quando l’ho fatto la prima volta era impossibile gestire le scritte e a maggior ragione inserire il logo di Slow News. Ora si riesce.
Il bradipo Jon Slow che legge “E poi arrivò DeepSeek”

Ho caricato a 4o Imagine Generator un’immagine del bradipo Jon Slow, la mascotte di Slow News, e la copertina del libro che ho scritto con Mafe de Baggis, “E poi arrivò DeepSeek”, entrambi sotto forma di immagini. Nel prompt ho messo esattamente quel che c’è scritto sulla copertina e chiesto di fare Jon Slow che legge il libro. La cover ha ancora qualche errore. Ecco un’altra iterazione, in cui ho schiarito la luce con il prompt. Schiarendo la luce le scritte migliorano un po’, ma come vedi la copertina ha ancora parecchi errori.

Un invito al corso AI@Work con testo molto lungo

Una prova significativa: ho chiesto una card di invito a fare il mio corso AI@Work, scrivendo il testo integralmente. La macchina ha gestito la scritta senza errori: questo era uno dei problemi più grossi di Dall-e e lo è ancora adesso di molte AI generative di immagini.
- Risultato: un cartellone con un layout decente e testi più leggibili rispetto ad altri generatori.
- Consiglio: conviene suddividere il testo in blocchi (“titolo”, “descrizione”) per dare istruzioni più ordinate, riducendo gli errori di formattazione.
Poi ho chiesto al modello di rendere questa card una foto realistica e appoggiarla su una scrivania elegante. Il risultato presenta ancora alcuni errori tipici delle AI.

Poi ho semplificato il testo e a quel punto il risultato della gestione del testo nell’immagine iper-realistica è stato molto migliore.

Nox e la consistency dei personaggi in 4o Image Generation
Uno dei problemi più grandi delle generative di immagini è la consistency dei personaggi, la coerenza. Il mio personaggio più difficile da gestire per questi strumenti è Nox, una giocattola umanoide che ho creato con il Rabbit r1. Nox è accompagnata, di solito, dal suo fedele amico coniglio, Polvere (Dust).

Non sono mai riuscito a ottenere coerenza dei personaggi, e infatti nel proof of concept che ho realizzato otto mesi prima dell’uscita di 4o Image Generation ho usato questo paletto come un elemento creativo: Nox è una mutaforme. Ma ora vale la pena provare.
Con un prompt multimodale ho caricato l’immagine di Nox (senza il coniglio, per non far troppa confusione) e poi ho scritto, semplicemente, “This character running in a field”. Il risultato mi ha stupito.

È in 2d, un’illustrazione (mia responsabilità, sono andato troppo di fretta col prompt testuale), ma è perfettamente, rigorosamente Nox. Così ho riprovato. Ho di nuovo caricato l’immagine 3d di Nox e questa volta ho chiesto: “This character running in a field, hyper-realistic, cinematic, low angle camera, macro”. Il risultato è molto buono (forse un po’ gonfio sull’addome, ma non ci si può davvero lamentare).

Un breve fumetto con 4o Image Generation

Ho inserito come prompt le parole chiave del mio metodo AI@Work, chiesto di fare una versione a fumetti e poi di aggiungermi come personaggio. Sopra la versione “senza di me”, sotto quella “con me”.

Una miniatura per YouTube con 4o Image Generation

Ho inserito la mia foto come reference e chiesto di fare un’illustrazione 2d con la scritta “4o Image Generation La prima recensione” e la mia faccia illustrata. L’unico errore sta nel fatto che le dimensioni dell’immagine non sono corrette per la cover di YouTube, ma si rimedia facilmente.
Come accedere a 4o Image Generation
Per testare 4o Image Generation:
- Collegarsi al portale di OpenAI con il proprio account.
- Apri una chat e inizia a dare comandi per generare immagini
- Se dovessi avere ancora il vecchio modello, vai su Sora e scegli “immagini”.
- Inizia a sperimentare con immagini e prompt.
Prospettive future e raccomandazioni
4o Image Generation rappresenta uno step ulteriore nel percorso verso generatori di immagini più precisi e duttili. Ecco alcune considerazioni finali:
- sperimentazione costante: serve pazienza per trovare il prompt ideale e abituarsi a correggere dettagli, soprattutto quando si integrano loghi o testi lunghi.
- sostenibilità dei flussi di lavoro: anche se più veloce dei predecessori, può richiedere numerose iterazioni per ottenere l’immagine perfetta.
- uso etico: fai attenzione a come usi immagini che coinvolgono volti reali o marchi.
L’esperienza dimostra che l’AI generativa può già aiutare creativi, content creator e professionisti di ogni tipo a risparmiare tempo e dare un tocco originale ai contenuti, senza dover più arrangiarsi con risorse stock generiche o disegni manuali.
Se cerchi nuove strade per rendere un progetto più comunicativo o desideri sperimentare locandine, inviti e personaggi di fantasia, 4o Image Generation ha gli strumenti giusti. Non è perfetta, ma i progressi si notano, e la direzione è chiara: riuscire a mettere insieme, in un’unica immagine, idee complesse senza troppe limitazioni tecnologiche.
Le sperimentazioni personali – “Io Jedi”, “Bradipo Jon Slow”, “Il recinto USB EMMIOH”, la card con l’invito – confermano una maggiore gestione del dettaglio e la possibilità di incorporare testo complesso. Restano comunque i “capricci” tipici delle AI: qualche errore ortografico casuale e piccole imprecisioni grafiche.
Lascia un commento