L'evoluzione delle intelligenze artificiali continua senza sosta e raggiungendo risultati ritenuti impossibili fino a poco tempo fa: è il caso di Sora, il nuovo modello generativo di OpenAI in grado di creare video partendo da semplici istruzioni testuali, che a pochi giorni dal debutto ufficiale ha già dimostrato di potersi spingere ben oltre realizzando un vero e proprio videogame simile al celebre Minecraft.
In una ricerca intitolata "Modelli di generazione video come simulatori di mondi digitali", i ricercatori dell'azienda specializzata nella creazione di IA ha mostrato come l'architettura del nuovo modello Sora non sia soltanto in grado di generare video partendo dalle istruzioni dell'utente, ma persino di simulare mondi digitali.
Nel corso di un esperimento condotto dai ricercatori di OpenAI per mettere alla prova le abilità di Sora, il nuovo modello generativo ha utilizzato una serie di prompt contenenti la parola chiave "Minecraft" per creare una riproduzione del videogioco di Mojang dotato di una sua interfaccia utente e meccaniche di gioco, inclusa una simulazione della fisica e la possibilità di controllare il personaggio del giocatore.
Le limitazioni ovviamente non mancano, dal momento che il modello non è (ancora) in grado di approssimare con una certa accuratezza la fisica di interazioni elementari, come un bicchiere di vetro che si frantuma in seguito a una caduta, mentre il più delle volte Sora restituisce risultati inconsistenti per quelle interazioni che ha già imparato a generare. Pur con tutti questi limiti, i risultati raggiunti dalla nuova intelligenza artificiale di OpenAI in pochi giorni sono impressionanti, dal momento che il nuovo modello sembra focalizzarsi non tanto sul discorso "creativo" come nel caso di altre IA, quanto sulla riproduzione delle routine fisiche grazie a quello che viene definito un "motore fisico guidato dai dati".
Come sottolineato da Jim Fan, ricercatore di NVIDIA, Sora non offre solo la capacità di creare una singola foto o un video partendo dalle istruzioni dell'utente, ma sa determinare la fisica di ciascun oggetto in un determinato ambiente ed effettuare il rendering di foto, video o persino mondi 3D interattivi sulla base di questi calcoli. "Queste capacità suggeriscono che la continua scalabilità dei modelli video è un percorso promettente verso lo sviluppo di simulatori ad alta capacità del mondo fisico e digitale, nonché degli oggetti, animali e persone che lo abitano", commentano i ricercatori di OpenAI nell'esposizione dello studio.
Sarà interessante capire fino dove saprà spingersi il nuovo modello di OpenAI, dal momento che la creazione di un mondo a "mattoncini" come quello di Minecraft è certamente "più semplice" rispetto alle ambientazioni digitali viste nei più moderni videogame "tripla-A". È lecito credere che, se utilizzato nel modo giusto, un simile strumento possa rappresentare un valido ausilio per tutti gli sviluppatori indipendenti che gestiscono studi di piccole dimensioni e intendono provare a creare idee innovative pur senza contare su grosse risorse.