I progressi nell’intelligenza artificiale nell’apprendimento automatico, oltre ai progressi in aree come la produzione audiovisiva, la realtà aumentata e quella virtuale, stanno generando un’istanza di rafforzamento reciproco per queste tecnologie.
Seguendo un’idea che è stata affrontata con molti approcci nel tempo, un team di ricerca ha combinato queste risorse per generare animazioni che seguono le orme di una fonte di motion capture, ma con movimenti in modo naturale.
Danze video generate al computer
Di per sé, il tentativo di realizzare animazioni con questa premessa non è nuovo. La sfida a questo punto sta nella probabilità che i risultati generino un livello di credibilità visiva.
Affrontando uno dei principali punti deboli in questo settore fino ad oggi, un articolo di ricerca, sviluppato da professionisti di Adobe Research e University College London, propone un nuovo approccio per apprendere l’aspetto dinamico di un attore e sintetizzare sequenze di movimenti complesse e invisibili.
Gli indumenti essendo irregolari, distorcono alcune proporzioni dell’anatomia umana e nascondono parte dei loro movimenti. Fino ad ora, questo era un ostacolo nel lavorare con questi modelli, ma il sistema AI presentato di recente si occupa di analizzare l’aspetto della persona presentata sulla fotocamera, per rappresentare efficacemente i movimenti con le risorse fornite dai suoi strumenti di apprendimento automatico.
Questo strumento è responsabile del mantenimento di risultati visivi di alta qualità, con un alto livello di probabilità. Il sistema, oltre a mettere a punto alcuni dettagli (bordi e tagli in genere), cura in modo particolare l’aspetto del corpo in movimento, curandone le proporzioni e la coerenza temporale dei movimenti, pur a fronte della sua propria speciale velocità e dinamismo della danza.
Questo metodo di sintesi dell’aspetto basato su video mostra risultati di alta qualità che, secondo il team di ricerca, non sono stati mostrati prima al di fuori di questo studio.
A livello tecnico, gli autori di questa ricerca hanno osservato: “Abbiamo adottato un’architettura basata su StyleGAN per il compito di riorientamento del movimento basato su video specifico della persona. Introducendo una nuova firma di movimento che viene utilizzata per modulare i pesi del generatore per catturare cambiamenti dinamici nell’aspetto, nonché per regolarizzare le stime di posa basate su un singolo fotogramma per migliorare la coerenza temporale. Abbiamo valutato il nostro metodo su una serie impegnativa di video e abbiamo dimostrato che il nostro approccio raggiunge prestazioni all’avanguardia sia dal punto di vista qualitativo che quantitativo . “
In precedenza, abbiamo appreso di uno sforzo di Google relativo alla danza e all’intelligenza artificiale, attraverso il suo progetto AI Choreographer, in grado di generare coreografie basate su stimoli musicali e allenamenti con passi di danza.
Nel caso di questo nuovo sviluppo presentato dal popolo di Adobe e UCL, la proposta è più vicina a quella dei deepfake, con un approccio molto più positivo e amichevole al lavoro audiovisivo, rispetto ad altre possibilità più complesse conosciute in precedenza.