CryptoHubble
- Dec 5, 2022
- 6 min read

Che cos'è DALL-E 2?

In un'epoca in continua evoluzione in cui la tecnologia dell'intelligenza artificiale avanza rapidamente, DALL-E è quello che serve per rimanere al passo con i tempi.

DALL-E, scritto come DALL•E sul sito web dell'azienda, è un modello di apprendimento automatico creato da OpenAI per produrre immagini a partire da descrizioni linguistiche. Queste descrizioni da testo a immagine sono note come prompt. Il sistema potrebbe generare immagini realistiche solo a partire da una descrizione della scena. DALL-E è un algoritmo di rete neurale che crea immagini accurate a partire da brevi frasi fornite dall'utente. Comprende il linguaggio attraverso descrizioni testuali e "imparando" le informazioni fornite dagli utenti e dagli sviluppatori nei suoi set di dati.

Il sistema utilizza una rete neurale basata su un trasformatore, un tipo di apprendimento automatico che comprende il contesto ed elabora le sequenze, per creare nuove immagini che rappresentino accuratamente ogni richiesta di testo. DALL-E si addestra e aggiorna costantemente i suoi set di dati, in modo che il trasformatore possa prevedere correttamente le immagini dalle richieste di testo.

Come funziona?

DALL-E è in grado di generare immagini fantasiose sulla base delle parole fornite dai creatori e dagli artisti, anche nel caso delle descrizioni più uniche e insolite.

Come produce l'arte? Utilizza l'algoritmo all'interno delle parole e le inserisce in una serie di vettori o incorporazioni testo-immagine. Quindi, l'intelligenza artificiale crea un'immagine originale dalla rappresentazione generica che le è stata presentata dai suoi set di dati, sulla base del testo aggiunto dall'utente che crea l'arte. DALL-E può "prendere qualsiasi testo e farne un'immagine", ha dichiarato Ilya Sutskever, cofondatore e Chief Scientist di OpenAI.

I set di dati avanzati, combinati con il deep learning, un tipo di apprendimento automatico, consentono a DALL-E di creare nuova arte. Prende le incorporazioni delle immagini e genera un'immagine vera e propria. L'intelligenza artificiale può anche aggiungere in modo appropriato piccoli dettagli, come ombre e riflessi, per dare alle immagini un aspetto ancora più realistico.

Informazioni sulla storia di OpenAI

Prima di creare concetti innovativi di apprendimento automatico da testo a immagine attraverso DALL-E, l'azienda ha iniziato come generatore di testo, più precisamente come processore linguistico. Nel 2019, OpenAI aveva inizialmente creato un modello chiamato GPT-2 in grado di prevedere la parola successiva all'interno di un testo. Aveva 1,5 miliardi di parametri ed era stato addestrato su 8 milioni di pagine web per produrre il suo set di dati.

L'obiettivo era quello di prevedere la parola successiva, in modo simile a un generatore di testo. "Su compiti linguistici come la risposta alle domande, la comprensione della lettura, il riassunto e la traduzione, GPT-2 inizia ad apprendere questi compiti dal testo grezzo, senza utilizzare dati di addestramento specifici per il compito", ha dichiarato OpenAI. Il suo successore, il modello GPT-3, diventerà il modello preliminare per DALL-E, modificato per generare immagini anziché testo aggiuntivo.

Caratteristiche di sicurezza su DALL-E

L'azienda continua a lavorare sulle funzioni di sicurezza e protezione del suo sistema. "Abbiamo potenziato il nostro sistema di sicurezza, migliorando i filtri per il testo e mettendo a punto il sistema di rilevamento e risposta automatica per le violazioni delle norme sui contenuti". I miglioramenti contribuiscono anche a evitare che le persone creino immagini violente o dannose, rimuovendo i contenuti dai dataset di apprendimento automatico. "Abbiamo limitato la capacità di DALL-E 2 di generare immagini violente, di odio o per adulti. Rimuovendo i contenuti più espliciti dai dati di addestramento, abbiamo ridotto al minimo l'esposizione di DALL-E 2 a questi concetti", ha dichiarato la società. "Abbiamo anche utilizzato tecniche avanzate per evitare che venissero generati in modo fotorealistico i volti di persone reali, compresi quelli di personaggi pubblici".

OpenAI ha anche creato un'applicazione chiamata Moderation endpoint che consente agli sviluppatori di proteggere le loro applicazioni da usi impropri. Protegge gli utenti valutando se il contenuto è pericoloso. "L'endpoint è stato addestrato per essere veloce, accurato e per funzionare in modo robusto su una serie di applicazioni", ha dichiarato l'azienda. OpenAI ha fornito questo endpoint a tutti i titolari di account OpenAI API (application programming interface) per consentire un "ecosistema AI più sicuro".

Per garantire che l'IA non venga utilizzata in modo improprio, OpenAI non genererà immagini se il filtro identifica le richieste di testo e il caricamento di immagini come una violazione delle sue politiche.

Differenza tra DALL-E e DALL-E 2

Sebbene sia DALL-E, annunciato nel gennaio 2021, sia DALL-E 2, rivelato nell'aprile di quest'anno, siano modelli creati da OpenAI, la differenza sta nel numero di parametri, che consentono a DALL-E 2 di creare immagini ancora migliori rispetto a DALL-E. Ciò avviene generando immagini a più alta risoluzione. DALL-E utilizza 12 miliardi di parametri, mentre DALL-E 2 lavora su 3,5 miliardi di parametri, con 1,5 miliardi di parametri aggiuntivi per migliorare la risoluzione.

DALLE-2 crea immagini di maggiore risoluzione, anche se più piccole rispetto al suo predecessore. DALLE-2 ha anche "imparato la relazione tra le immagini e il testo utilizzato per descriverle, in un processo noto anche come diffusione". Nel metodo, di solito c'è uno schema di punti che si modifica gradualmente verso un'immagine quando ne riconosce gli aspetti. DALL-E 2 è in grado di espandere le immagini oltre il contenuto della foto originale, il cosiddetto outpainting, creando nuove composizioni da vecchie immagini. Ha una risoluzione quattro volte superiore a DALL-E. Nel complesso, DALL-E 2 è più versatile e produce immagini più realistiche e precise rispetto al suo predecessore.

Cosa si può fare con DALL-E 2 (TL;DR):

Finora abbiamo parlato della capacità di DALL-E 2 di creare immagini dal testo, ma il modello può fare molto di più:

Può creare immagini e opere d'arte originali e realistiche a partire da una descrizione testuale. Può combinare concetti, attributi e stili.

È in grado di modificare immagini esistenti a partire dal testo, aggiungendo e rimuovendo elementi, tenendo conto delle ombre e dei riflessi presenti nella tela originale, creando nuove composizioni di ampio respiro.

Può prendere un'immagine e crearne diverse varianti ispirate all'originale.

https://twitter.com/gweb_xyz

Una delle cose da tenere a mente è che DALL-E 2 funziona meglio con frasi lunghe e complesse, mentre le frasi brevi sono troppo generiche e in pratica confondono il programma.

DALL-E 2 ha imparato a rappresentare gli elementi separatamente vedendoli ripetutamente nell'enorme set di dati di 650 milioni di coppie immagine-testo e ha sviluppato la capacità di unire concetti non correlati con coerenza semantica.

Il modello ha anche un'altra fantastica capacità: l'interpolazione. Utilizzando una tecnica chiamata text diffs, DALL-E 2 può trasformare un'immagine in un'altra facendo la somma tra le coppie immagine-testo:

Uso creativo e commerciale di DALL-E

Secondo il sito web dell'azienda, le immagini possono essere utilizzate in modo creativo e commerciale. Si legge che le persone possono creare immagini con il software e utilizzarle per progetti commerciali, come illustrazioni di libri o siti web aziendali. Secondo OpenAI, questo permette ai creatori di ottenere tutti i diritti di utilizzo delle immagini generate. Alcuni sviluppatori ritengono che dovrebbero esserci delle regole per l'arte generata dall'IA. "Tali norme potrebbero assumere diverse forme, come l'inclusione di filigrane nelle immagini generate da DALL-E, la trasformazione di DALL-E in un software a pagamento, lo sviluppo di politiche governative per l'applicazione dell'uso equo di tali contenuti o una combinazione di tutte queste cose", ha dichiarato Rishabh Misra, ingegnere senior di machine learning (ML) presso Twitter e ricercatore indipendente di ML.

Anche se questo pone molte domande sul copyright o sul credito delle immagini di stock, alcune aziende, come Shutterstock, stanno incorporando immagini generate dall'intelligenza artificiale e lo considerano un passo avanti nella giusta direzione per il futuro in continua evoluzione dell'intelligenza artificiale e della creazione di contenuti.

Le possibilità future sono infinite

Esistono numerose opportunità e possibilità di utilizzare l'arte generata dall'IA, come DALL-E, nella creazione di contenuti. Un'idea è quella di utilizzare le immagini generate dall'intelligenza artificiale per concetti non ancora creati o troppo costosi da fotografare. "Le persone potrebbero usare DALL-E per generare un'immagine di un prodotto che non esiste ancora o per creare un'immagine troppo costosa o difficile da fotografare", ha suggerito Ed Shway, co-proprietario della società di AI ByteXD.

Alcuni pensano che ci saranno più strumenti di intelligenza artificiale combinati per creare arte in movimento, parlante e completamente animata. Ciò che è davvero entusiasmante è che, con il progredire dello spazio della realtà creativa, stiamo vedendo che le persone stanno stratificando diversi strumenti di intelligenza artificiale per produrre contenuti ancora più creativi". L'immagine di una persona creata in DALL-E può essere animata e dotata di voce grazie a D-ID (AI-generated text-to-video). Un paesaggio creato in Dreamstudio può trasformarsi in un'inquadratura di apertura di un film, accompagnata dalla musica composta su Jukebox", ha dichiarato Gil Perry, CEO e cofondatore di D-ID, un'azienda di tecnologia di ricostruzione video creativa e brevettata.

Detto questo, siamo estremamente entusiasti di questa rivoluzione dell'intelligenza artificiale, soprattutto nel campo dell'arte. DALL-E e altri strumenti di AI stanno rendendo possibile la creazione di immagini che erano impensabili e difficili da realizzare solo pochi mesi fa...

Cosa dobbiamo aspettarci dal prossimo futuro? 👀