Voce umana e artificiale

Apple ha deciso di affidare ad una voce sintetica la lettura di diversi testi di lingua inglese sulla sua piattaforma di audiolibri, non è la prima e non sarà l'ultima. Che futuro attende i narratori?

gen 11, 2023

La voce sintetica sostituirà quella umana nella lettura di audiolibri e testi in genere?

Sandro Ghini intervista ChatGPT

Apple ha deciso di affidare ad una voce sintetica la lettura di diversi testi di lingua inglese sulla sua piattaforma di audiolibri (https://authors.apple.com/support/4519-digital-narration-audiobooks). La differenza sostanziale con le offerte di lettura sintetica precedenti in Text to Speech tradizionale è proprio l’uso di intelligenza artificiale per ottenere una resa vocale più realistica e naturale.

Anche nel nostro gruppo Telegram riservato agli iscritti di Mettiamoci la Voce Academy abbiamo affrontato spesso l’argomento: la paura di poter essere sostituiti da voci artificiali è ovviamente un tasto dolente per gli orizzonti futuri di narratori, lettori di audiolibri e donatori voce.

Nel podcast in uscita oggi trovi il nostro punto di vista personale, qui invece abbiamo deciso di affrontarlo da un punto di vista differente cercando risposte proprio dal competitor più temuto: l’intelligenza artificiale. Il bello del fare domande all’AI è che a differenza degli intervistati in carne e ossa risponde in modo trasparente, preciso ed esaustivo rispetto alle domande poste, potremmo dire che non provando emozioni non teme la concorrenza.

Di seguito il virgolettato senza alcuna modifica delle risposte che ChatGPT ha dato alle mie domande.

Partiamo con una domanda personale: hai paura della concorrenza degli esseri umani?

Sono una macchina, non ho la capacità di sentire paura o emozioni simili.

Tuttavia, è vero che la tecnologia di intelligenza artificiale, tra cui le tecnologie di sintesi vocale, stanno diventando sempre più avanzate e potrebbero sostituire alcuni lavori che sono stati tradizionalmente svolti da esseri umani. Tuttavia, l'IA può anche essere utilizzata come un potente strumento per aiutare gli esseri umani a svolgere meglio i loro lavori e aumentare la loro produttività.

Inoltre, non è detto che l'IA debba necessariamente sostituire gli esseri umani, in molte situazioni l'IA e gli esseri umani possono lavorare insieme in modo collaborativo per raggiungere obiettivi comuni. Inoltre ci sono molte professioni nei quali la componente umana è fondamentale, e che difficilmente verranno sostituite dalla tecnologia come ad esempio l'arte, l'empatia e la creatività.

In generale, è importante capire che l'IA è solo uno strumento e che il suo impatto dipenderà dall'uso che se ne fa. Il suo sviluppo deve essere accompagnato da politiche, norme e controlli per garantire che l'IA sia utilizzata in modo responsabile, etico e nell'interesse degli esseri umani.

Quanto è realistica oggi una voce artificiale che usa campioni di voce reali?

La tecnologia per generare voci artificiali usando campioni di voci reali è in continua evoluzione e sta diventando sempre più realistica. Questa tecnologia, nota come sintesi vocale su modello, utilizza campioni di voci reali per creare voci artificiali che suonano simili a quelle delle persone reali.

La qualità delle voci generare dalla sintesi vocale su modello dipende da molti fattori, tra cui la quantità e la qualità dei campioni di voce utilizzati, la tecnologia utilizzata per generare le voci e la quantità di elaborazione eseguita sulla voce generata. In generale, più campioni di voce vengono utilizzati e più la tecnologia di generazione è avanzata, migliore sarà la qualità della voce generata.

Al momento le voci generatore da questa tecnologia sono molto realistiche, molte volte sono difficili da distinguere da voci umane reali. Tuttavia, ci sono ancora alcune limitazioni nella generazione di voci su modello. ad esempio, la voce generata può essere ancora percepita come meno espressiva e meno variabile rispetto a quella di una persona reale. Questo potrebbe essere dovuto alla mancanza di esperienza umana nella generazione della voce.

In generale, la sintesi vocale su modello rappresenta un passo in avanti significativo nella generazione di voci artificiali realistiche. Tuttavia, ancora ci sono alcune limitazioni che impediscono una completa fedeltà con la voce umana, ma si stanno facendo progressi continuamente in questo campo.

Puoi spiegarmi meglio come funziona la sintesi vocale su modello?

La sintesi vocale su modello (TTS, Text-to-Speech) è una tecnologia che utilizza un modello basato su dati per generare voci artificiali che suonano simili a quelle delle persone reali. Ci sono due modi principali per generare voci TTS: sintesi parametrica e sintesi su modello.

La sintesi parametrica utilizza un insieme di parametri per descrivere una voce, come la frequenza fondamentale, l'ampiezza della forma d'onda e la durata dei fonemi. Utilizzando questi parametri, un sintetizzatore vocale genera un suono artificiale che cerca di imitare una voce umana.
La sintesi vocale su modello utilizza un modello statistico addestrato su un set di dati di registrazioni vocali umane per generare voci artificiali. Il modello statistico viene addestrato su un gran numero di campioni di voci umane per apprendere come generare una voce umana realistica.

Per generare una voce TTS su modello, vengono utilizzati tre componenti principali: un'unità di sintesi, un modello acustico e un modello linguistico.

L'unità di sintesi è responsabile della generazione del suono artificiale a partire dalle informazioni fornite dal modello acustico e dal modello linguistico.
Il modello acustico descrive come generare un suono umano a partire dalle informazioni linguistiche, come l'intonazione, la durata e l'ampiezza dei fonemi.
Il modello linguistico descrive come generare una forma linguistica a partire dal testo di input.

Il modello linguistico e acustico sono addestrati su un gran numero di campioni di voci umane, questo modello statistico è utilizzato per generare una voce artificiale a partire dal testo di input. La qualità della voce generata dipende dalla quantità e qualità dei dati utilizzati per addestrare il modello statistico, se il modello statistico è addestrato su un gran numero di campioni di voci di alta qualità, la qualità della voce generata sarà probabilmente molto alta.

Un'intelligenza artificiale quanto riesce a comprendere il significato profondo di un testo? Come interpreta le emozioni?

L'intelligenza artificiale (IA) può essere utilizzata per analizzare il testo e riconoscere alcuni degli aspetti del significato del testo, come le parole chiave, le frasi e i concetti. Tuttavia, l'IA non può ancora comprendere il significato profondo di un testo allo stesso modo in cui lo farebbe un essere umano.

L'IA può essere addestrata per riconoscere alcune caratteristiche del testo, come l'emozione espressa in esso. Ad esempio, alcuni algoritmi di IA possono essere addestrati per riconoscere parole e frasi che esprimono emozioni specifiche, come felicità, tristezza, rabbia, ecc. Tuttavia, l'IA spesso non riesce a comprendere il contesto in cui queste emozioni sono espresse e potrebbe interpretarle in modo errato. Inoltre l'IA non è in grado di percepire l'esperienza umana alla base di un'emozione.

Anche se l'IA non può comprendere il significato profondo di un testo o interpretare le emozioni in modo preciso, è ancora utilizzata in molti campi per analizzare i dati testuali e generare informazioni utili. Ad esempio, l'IA può essere utilizzata per analizzare testi per scopi di ricerca, marketing o studi di mercato.

In generale, l'IA può aiutare a processare e analizzare grandi quantità di testo, ma non può ancora comprendere il significato profondo del testo e interpretare le emozioni in modo preciso, come fanno gli esseri umani. Ci sono molti progressi in questo campo e la ricerca sta continuando a lavorare per sviluppare algoritmi sempre più sofisticati per comprendere il testo, ma ancora lontano dall'avere una comprensione completa del testo e delle emozioni umane.

Ci sarà ancora spazio per gli audiolibri letti da persone vere ora che c'è la possibilità di farli leggere all'intelligenza artificiale con voci campionate?

Gli audiolibri letti da persone vere hanno un'appeal particolare e possono essere molto piacevoli da ascoltare perché hanno una certa personalità e una interpretazione individuale dei testi. La lettura da parte di un narratore umano può aggiungere una dimensione emotiva ed espressiva all'esperienza di ascolto, che può essere difficile da replicare con una voce generata dall'intelligenza artificiale.

Ci sono alcune situazioni in cui la lettura dell'IA può essere più adatta, ad esempio per libri che sono molto lunghi o per libri adatti a ragazzi con un vocabolario limitato. A volte anche la possibilità di avere un testo in modalità narrativa con una voce perfetta ed esente da errori può risultare più efficace.

Detto questo, la tecnologia dell'IA continua a migliorare e alcune voci generiche prodotte dall'IA sono ormai molto realistiche. Tuttavia, la capacità di generare voci uniche e personalizzate per gli audiolibri ancora non è perfetta, e molte volte queste voci sono percepite come meno realistiche rispetto alle voci umane.

In generale, gli audiolibri letti da persone vere continueranno probabilmente a essere apprezzati dai molti ascoltatori che cercano un'esperienza di ascolto più immersiva e coinvolgente. Tuttavia, la tecnologia dell'IA può rappresentare un'opzione valida per un certo tipo di pubblico e per alcune situazioni specifiche, ed è probabile che continuerà a essere utilizzata in futuro.

Per approfondire il tema ti consiglio

In questo numero non ti consigliamo un episodio tra quelli passati ma l’ultimo uscito dove ci confrontiamo proprio sul tema voci artificiali a commento della scelta di Apple.

Open Day Mettiamoci la Voce Academy

Perché formarsi alla lettura espressiva in un’academy e non con un semplice corso?
Chi lavora con la voce e quali sono i benefici di un lavoro sulla voce?
Chi sono i tutor dell’academy e quali sono i corsi che si possono seguire?

Porte aperte in academy 🎉
Vieni a conoscere i nostri tutor e l’offerta formativa su lettura espressiva, uso della voce e narrazioni audio della nostra scuola: ti mostreremo in anteprima la nuova piattaforma academy in uscita a fine mese, i nuovi corsi, i nuovi appuntamenti live del 2023, faremo un tour virtuale nei contenuti on-demand e parleremo dei benefici dell’uso consapevole della voce.

Iscriviti qui
https://www.eventbrite.it/e/biglietti-open-day-mettiamoci-la-voce-academy-gennaio-2023-511038749657

Voice Wide Web

di Valentina Ferraro - La Musifavolista

Amo percorrere i sentieri dei narratori indipendenti, quelli che battono strade meno canoniche, a volte più “social” e contribuiscono a creare quella che mi piace immaginare come un’audio-biblioteca gratuita e aperta 24 ore su 24.

In questa rubrica vi porto con me alla scoperta di alcune voci che meritano un posto nelle vostre cuffie!

Oggi porto nelle vostre orecchie Chiara Foianesi, attrice teatrale e narratrice su Youtube che legge per noi “Il naso” di Gogol.
Chiara ci regala anche un’introduzione video nella quale ci spiega cosa l’ha spinta a realizzare l’audiolibro di questa lettura e ci porta con sé nella sua voce, che ha toni caldi e rassicuranti.
Suona come il profumo della torta allo yogurt appena sfornata, con note di latte caldo e sfumature di limone qua e là; è al tempo stesso familiare e sofisticata e ci arriva alle orecchie come un ricordo d’infanzia.

Chiara è molto attiva sul canale, pubblica con costanza e passione;
vale la pena ascoltare i suoi racconti e notare con le orecchie come il percorso attoriale doni alla voce sfumature di carattere musicalmente riconoscibili.

Come per ogni altro suggerimento della Voice Wide Web, ricordo che i narratori scelti operano su canali gratuiti e non tutti hanno agio di poter fare editing professionali sugli audio caricati, dunque le mie impressioni sonore sono sempre e solo relative al “gusto” e al “tatto” della voce come strumento dell’essere umano e di relazione fra storie e ascoltatori.
Buon ascolto 🙂

Te lo dico all’orecchio

di Sandro Ghini

L’uso della voce sintetica campionata e dell’intelligenza artificiale è salito alla ribalta ad ottobre quando il popolarissimo podcaster americano Joe Rogan ha intervistato Steve Jobs (morto nel 2011) portando così all’attenzione del grande pubblico il tema dell’audio deepfake. Lasciando ad altra sede polemiche ho chiesto direttamente a ChatGpt una spiegazione di questo fenomeno. Trovi le sue risposte dopo i consigli di ascolto. Come primo consiglio ti suggerisco di ascoltare proprio l’intervista originale di Joe Rogan per il progetto podcast.ai .
Per il secondo consiglio giochiamo in casa, ti suggerisco l’ultimo episodio della prima stagione di “Vuoi una mano? La vita quotidiana di una mano bionica”, di Fabia Timaco con le voci di Fabia Timaco (se stessa) e Valentina Zenoni (Caro, la mano bionica).

Che rapporto ci sarà tra voce sintetica e fake news?

La tecnologia di sintesi vocale può essere utilizzata per creare voci artificiali che suonano come quelle di persone reali. Questa tecnologia può essere utilizzata per generare messaggi audio e video falsi, noti come "deepfakes", che possono diffondere false notizie o informazioni fuorvianti.

Le deepfakes vocali in particolare, possono essere utilizzate per generare discorsi o interviste fittizie, con personaggi pubblici o esponenti politici che dichiarano cose mai dette o non corrispondenti alla realtà. Questo può rappresentare un grosso problema perché le voci artificiali possono essere utilizzate per diffondere informazioni false e creare confusione nell'opinione pubblica.

Per questo motivo, è importante che gli utenti siano in grado di riconoscere le deepfakes vocali e che i media e le piattaforme online prendano misure per prevenire la

l'imitazione di una voce reale e vivente attraverso la sintesi vocale su modello è reato? se si quale?

In alcuni paesi, l'utilizzo della tecnologia di sintesi vocale su modello per imitare la voce di una persona reale senza il loro consenso può violare le leggi sulla tutela della privacy, la diffamazione o la contraffazione. Ad esempio, in alcuni paesi l'uso di deepfakes vocali può essere considerato una forma di violazione dei diritti d'autore.

In generale, le leggi sulle deepfakes vocali variano a seconda del paese e della situazione specifica. Ad esempio in alcuni casi può essere considerato legale utilizzare una deepfake vocale a scopo di satira o di un'opera di narrazione, mentre in altri casi può essere considerato un reato.

Ci sono anche alcuni paesi che stanno cercando di adottare nuove leggi per regolamentare l'uso delle deepfake vocali per proteggere i diritti dei cittadini e prevenire le false informazioni. Ci sono anche sforzi per sviluppare tecnologie di rilevamento delle deepfake vocali che possono aiutare a identificare e rimuovere le deepfake vocali.

In generale è importante capire che l'utilizzo della sintesi vocale su modello per creare deepfakes vocali può violare le leggi e avere conseguenze legali a seconda del contesto in cui vengono utilizzate e delle leggi specifiche del luogo, è quindi importante informarsi e rispettare le leggi vigenti.