"Il computer parla come me". L'intelligenza artificiale riproduce perfettamente voce, timbro e intonazione

di Riccardo Luna

Il processo è così perfetto da rendere impossibile individuare se a emettere il suono sia una persona reale o un pc. Una strada che potrebbe cambiare per sempre il mondo del doppiaggio. Ma non solo

02 Aprile 2021 Aggiornato alle 15:03 5 minuti di lettura

Il personal computer adesso ha la mia voce. Quando scrivo qualcosa, in una finestra aperta su una pagina web dedicata, il computer lo ripete e parla come se fossi io: la mia voce, il mio timbro, l’intonazione. Identici. A volte in verità si perde, come se vagasse per lo spazio infinito: sembra di ascoltare il rumore delle stelle nei film di fantascienza. O l’eco del vento in un canyon d’acciaio. Ma sono frazioni di secondo, appena percettibili; poi torno io. O meglio, la mia voce. La mia voce generata da un sistema di intelligenza artificiale. Funziona. Potrei farci un podcast. Sono diventato un giornalista sintetico.

Mi sono operato alle corde vocali qualche giorno fa. Niente di grave: stress da sforzo, aveva sentenziato lo specialista. Un anno fa ho condotto una diretta tv per diciotto ore e su una corda si era formato un piccolo angioma, che sembra chissà che, ma è soltanto un edema, un versamento che non si riassorbiva. Il risultato è che la voce si era arrochita e vibrava, manco fossi Clint Eastwood; che all’inizio dici, bello, ma poi ti fa fatica parlare. Intervento chirurgico allora; ma prima ho deciso di farmi una copia digitale della voce: di realizzare un software in grado di riprodurla nei pochi giorni in cui devo stare in silenzio. Per esplorare una delle frontiere dove l’umano e il tecnologico si confondono fino a diventare indistinguibili.

In questo viaggio ci sono alcune pietre miliari che servono ad orientarsi. La prima è del 2014: Ian Goodfellow, che oggi lavora alla Apple, è un giovane ricercatore di Brain, la divisione di Google che dal 2010 si occupa di fare ricerca sul machine learning, i sistemi di apprendimento delle macchine. Qui realizza un modello che aveva immaginato nella sua tesi di dottorato: dimostra che due reti neurali artificiali (semplificando molto: due algoritmi) “apprendono” in una sorta di gioco in cui si sfidano. Questo processo “antagonista” genera dati che possono anche essere video, foto, suoni, testi apparentemente autentici. Grazie a questa intuizione le macchine imparano a produrre “oggetti” digitali umani.

La prima clamorosa dimostrazione di questa teoria, e la seconda pietra miliare, è del 2017: su un forum del sito Reddit un utente usa per la prima volta l’espressione deepfake. Si riferisce ai video che iniziano a circolare in cui qualcuno fa o dice qualcosa che non ha mai fatto. In un video si vede l’ex presidente americano Obama fare un discorso che non ha mai pronunciato. I deepfake diventano subito uno strumento per realizzare video pornografici falsi usando volti di attrici famose, una pratica odiosa che per qualche giorno fa dire che questa tecnologia va messa al bando. Non accade. Anzi diventa così sofisticata e diffusa che in diversi ormai si divertono a creare volti di persone che non esistono. Navigare il sito thispersondoesnotexist è come rivivere Blade Runner: chi sono gli umani e chi invece gli androidi? Quasi impossibile dirlo. Per ragioni difficili da comprendere, l’attore Tom Cruise diventa uno dei bersagli preferiti: in rete circolano clip, dichiaratamente fasulle ma perfette, in cui compie gesti buffi e sconclusionati.

La terza pietra miliare è del 2020: l’11 giugno viene presentata GPT-3, un'intelligenza artificiale in grado di scrivere anche un romanzo, dicono, nello stile dello scrittore che preferisci? Ti piace Hemingway? Preferisci Orwell? Il Generative Pre-trained Transformer scrive in pochi istanti il racconto che vuoi. Qualcuno nota che apparentemente ricorda il generatore automatico di lettere d’amore che Alan Turing sperimentò nel 1952 a Manchester, ma allora si trattava di inserire nomi e aggettivi, estratti da un elenco, in appositi spazi bianchi di una lettera già scritta. Qui siamo evidentemente in un’altra dimensione.

L’annuncio fa scalpore: GPT-3 è la terza versione di un progetto di ricerca di un laboratorio fondato a San Francisco nel 2015, Open AI, che tra i fondatori ha Elon Musk e tra i finanziatori Microsoft. Una cosa seria. Sono trascorsi appena nove mesi e GPT-3 non scrive romanzi ma è già utilizzato da oltre diecimila sviluppatori ed è presente in oltre trecento applicazioni. Qualche giorno fa è stato annunciato che ormai genera quattro miliardi e mezzo di parole al giorno. Non parole a caso ma parole che formano discorsi fatti con esseri umani che probabilmente non sanno di essere impegnati a discutere con una intelligenza artificiale. E non notano la differenza. Negli Stati Uniti esce anche un libro, un “dialogo” fra un ricercatore di Google e GPT-3: non è il primo libro in assoluto “assemblato” da un algoritmo, ma è il primo in cui un essere umano dialoga con una intelligenza artificiale creando una conversazione sensata, a tratti, profonda.

“Tutto ciò è reale o sto parlando con me stesso?” si chiede il ricercatore alla fine.

La prova che quella domanda sia ormai senza senso è arrivata qualchje giorno fa. Un giornalista e ricercatore polacco Kazimierz Rajnerowicz ha messo online un test in cinquanta domande che sfida le persone a riconoscere se una determinata immagine, se un volto, se un suono, o un testo sono stati generati da un essere umano o da una intelligenza artificiale. Teoricamente dovrebbe essere agevole: un volto generato da un computer di solito ha delle imperfezioni sul collo o sulle orecchie, un suono ha tonalità impreviste, un testo sembra senza anima benché corretto. Eppure i risultati sono sconfortanti: le persone azzeccano la metà delle risposte, ovvero quelle che indovinerebbero se rispondessero a caso. L’intelligenza artificiale ha già vinto.

La questione del suono ci riporta alla mia voce artificiale. Perché nel test si tratta di riconoscere brevi brani musicali: quale è stato composto da un computer? Difficile dirlo. Ma riprodurre la voce di un essere umano è un’altra cosa. Eppure ci siamo. La scorsa estate Open AI ha pubblicato un juke box che crea canzoni “cantate” da grandi della musica, di solito ormai scomparsi. Frank Sinatra? Michael Jackson? Eccoli di nuovo in scena. Intendiamoci, le canzoni non sono affatto capolavori, ma sono delle dimostrazioni di forza: ci dicono dove sta arrivando la tecnologia.

Qui siamo arrivati. Al punto che riprodurre la voce di qualcuno è tecnicamente possibile. Con che scopo sensato? Secondo alcuni si apre un mercato: il mondo del doppiaggio potrebbe cambiare per sempre. Ci stanno pensando a Seattle, dove ha sede Amazon; e a Google che ha appena messo online uno strumento dimostrativo interessante. E ci lavorano a Roma. Al Pi Campus. Dove finisce l’Eur e la strada punta a sud, sulla destra ci sono delle ville che ospitano un centro che è un po’ un acceleratore di startup e un po’ un laboratorio-scuola di intelligenza artificiale. Qui diversi anni fa Marco Trombetti con la moglie ha fondato Translated, forse la migliore startup italiana in circolazione: una piattaforma per traduttori professionisti supportati da intelligenza artificiale per far traduzioni migliori. Ora sta per lanciare MateDub, “il primo strumento per fare doppiaggio utilizzando voci prodotte da una intelligenza artificiale allenata ascoltando i migliori doppiatori”.

Ci sono andato qualche giorno fa: per quasi un’ora (ma il prodotto perfetto richiede almeno due ore) mi hanno fatto leggere un testo: quella registrazione è stata affidata a MateDub; dopo un giorno la mia voce era riconoscibile, dopo due buona, dopo tre migliorava ancora. La macchina stava imparando a parlare come me. L’obiettivo, dice Trombetti, non è sostituire i doppiatori così come Translated non ha sostituito i traduttori ma ha cambiato il modo in cui lavorano. Pensa ad un marketplace di voci digitali, un catalogo nel quale i produttori di contenuti audiovisivi possano scegliere la voce migliore. E comprarla.

Vedremo se sarà davvero così. Ma intanto siamo arrivati al punto che qualche giorno fa in rete è uscito un video, realizzato da uno youtuber, dove si vede e si ascolta il rapper Eminem cantare una canzone inventata con un testo esplicitamente femminista. Riepiloghiamo il procedimento perché tiene assieme tutti i pezzi: il testo della canzone è stato generato da ShortlyAI, una intelligenza artificiale che si basa proprio su GPT-3; è stato sufficiente dare alla macchina il titolo “La nuova canzone di Eminem è un attacco alla patriarchia. Prende una posizione contro i maschi e in difesa della donne”; dal titolo GPT-3 ha scritto i versi completi. Il testo è poi stato fatto cantare alla voce di Eminem ricreata da uno youtuber che dice di fare “parodie sintetiche di canzoni”; infine sono state sincronizzate le labbra del rapper. Il video circola da metà marzo. Se uno non conoscesse Eminem, potrebbe crederci.

"Il computer parla come me". L'intelligenza artificiale riproduce perfettamente voce, timbro e intonazione

Leggi anche

Il dilemma di chi fa innovazione in Italia oggi

Le nonne svizzere che forse salveranno il mondo

I robot hanno diritto a riposare la domenica?