Ogni singolo giorno rappresenta un capitolo inedito nella narrazione dell’intelligenza artificiale. Se in passato abbiamo assistito all’affermarsi di Sora, ora è il turno di EMO, un’altra sorprendente creazione nel campo dell’intelligenza artificiale generativa che cattura l’attenzione di tutti. Ciò che rende EMO particolarmente interessante è il suo origine insolito: a differenza delle consuete proposte provenienti da grandi attori come OpenAI o Google, questa nuova IA ha le sue radici in Cina, essendo stata introdotta da Alibaba. Ciò che rende EMO così unica è la sua capacità di dare vita alle immagini statiche, trasformandole in ritratti animati attraverso l’uso di file vocali.
Tuttavia, la vera magia risiede nel risultato finale: le labbra in sincronia perfetta con l’audio e le espressioni che si adattano al tono della voce, dando vita a un’esperienza visiva e sonora coinvolgente. Come sempre accade nel mondo dell’intelligenza artificiale, le parole non possono rendere giustizia alla sua potenza e creatività. È necessario osservare direttamente gli esempi per cogliere appieno l’innovazione di EMO. Su Github, nella pagina dedicata al progetto, sono disponibili numerosi esempi che testimoniano la straordinaria capacità di questa nuova IA.
Prendiamo in considerazione, per esempio, l’interpretazione di Audrey Hepburn che esegue una versione di “Perfect” di Ed Sheeran, oppure osserviamo la figura femminile nel video di Sora che comunica attraverso la voce di Mira Murati. Questi esempi evidenziano chiaramente un’allusione interna tra i diversi gruppi che si occupano dello sviluppo e dell’applicazione dell’intelligenza artificiale.
EMO è l’incredibile IA che arriva dalla Cina: video da una singola immagine
EMO è stato creato da Linrui Tian, Qi Wang, Bang Zhang e Liefeng Bo, i talentuosi individui associati all’Alibaba Group Computational Intelligence Institute.
Attualmente, simile a Sora, si presenta come uno strumento riservato esclusivamente alla ricerca e non è liberamente accessibile al pubblico per il suo utilizzo pratico. I suoi ideatori ci mostrano un vasto repertorio di esempi che abbracciano molteplici possibilità.
Attraverso EMO, si può non solo osservare le persone mentre cantano o parlano, ma anche sperimentare situazioni in cui, partendo da un’unica immagine, si riesce a ottenere un video che trasmette emozioni come rabbia, gioia o riflessione da parte del soggetto.
La versatilità di EMO si manifesta nella capacità di generare video ritratto di varie lunghezze, adattandosi di conseguenza alla durata del file audio di partenza. Gli esperti che hanno contribuito allo sviluppo di questo strumento sottolineano l’importanza di mantenere la coerenza del personaggio rappresentato durante l’intero video, conferendo così una continuità narrativa e visiva. La visione dei risultati ottenuti con EMO suscita riflessioni sull’ampio impatto potenziale che potrebbe avere su diversi ambiti, soprattutto nel mondo dell’intrattenimento.
Sebbene in passato si sia discusso ampiamente dei diritti d’immagine, l’attenzione si estende ora anche alla manipolazione delle voci. Questa caratteristica, altrettanto distintiva, offre possibilità di creare effetti impressionanti e di sollevare ulteriori questioni etiche e legali riguardo all’identità e alla rappresentazione digitale delle persone.