VALL-E: l’IA ora può imitare qualsiasi voce umana in soli 3 secondi.

Naturalmente, questa tecnologia solleva grandi preoccupazioni per le possibili minacce che potrebbe rappresentare per il mondo. Gli attori malintenzionati possono utilizzare questa tecnologia per commettere diversi tipi di inganni e frodi.

Microsoft ha compiuto un importante passo avanti nel regno dell’intelligenza artificiale (AI) con il rilascio di VALL-E, un sistema di intelligenza artificiale in grado di imitare correttamente la voce di qualsiasi persona. A differenza dei modelli standard di sintesi vocale che utilizzano forme d’onda, VALL-E prende un campione di tre secondi della voce di qualcuno, lo divide in token e li utilizza per generare nuovi suoni a seconda delle regole che ha appreso. Ciò significa che il sistema AI può rilevare e imitare le caratteristiche della voce di una persona, come il tono, il tono e lo stile di parola.

VALL-E è stato creato utilizzando EnCodec, una nuova tecnologia Meta pensata per comprimere i file audio 10 volte senza sacrificare la qualità. Poiché la maggior parte delle 60.000 ore di parlato in inglese nella libreria di formazione, LibriLight, proviene da audiolibri, VALL-E funziona al meglio quando la voce sintetizzata suona come una delle voci nella libreria di formazione. La libreria contiene oltre 7.000 voci, rendendo molto semplice per VALL-E impersonare suoni diversi.

VALL-E imita non solo la voce della persona ma anche l’ambiente acustico del campione di tre secondi. Ciò implica che se il campione è stato acquisito tramite telefono, suonerebbe in modo diverso rispetto a se fosse stato registrato di persona e verranno presi in considerazione anche i rumori distintivi dell’ambiente.

I ricercatori Microsoft sono consapevoli dei rischi offerti da VALL-E, come la possibilità che malintenzionati utilizzino la tecnologia per impersonare politici o celebrità o per utilizzare voci riconoscibili per indurre le persone a rivelare informazioni personali o denaro. I ricercatori non hanno reso pubblico il codice di VALL-E e il loro documento include una dichiarazione etica.

Naturalmente, questa tecnologia solleva grandi preoccupazioni per le possibili minacce che potrebbe rappresentare per il mondo. Gli attori malintenzionati possono utilizzare questa tecnologia per commettere diversi tipi di inganni e frodi. Come esempio:

♠ VALL-E può essere utilizzato per diffondere false informazioni o propaganda imitando le voci di politici, celebrità o altre personalità popolari. Il sistema di intelligenza artificiale può anche essere utilizzato per imitare persone affidabili, come familiari, amici o funzionari dell’autorità, al fine di indurre le persone a rivelare informazioni sensibili o denaro.

♣ Schemi di phishing: VALL-E può essere utilizzato per imitare le voci di istituzioni affidabili, come banche o società tecnologiche, al fine di eseguire truffe di phishing basate sul telefono. Le persone sono indotte a fornire informazioni personali o denaro in queste frodi.

♥ VALL-E può anche essere utilizzato per modificare le registrazioni audio, ad esempio modificare la sostanza dei discorsi o delle trasmissioni di notizie o fabbricare false prove audio in tribunale.

♦ Lesioni psicologiche: quando la tecnologia di imitazione della voce viene utilizzata per molestare o intimidire qualcuno, può infliggere danni psicologici. Può anche causare una diffusa sfiducia nei confronti dell’audio registrato, rendendo più difficile per le persone valutare la veridicità delle notizie e di altre informazioni critiche.

Questi sono solo alcuni dei rischi posti da VALL-E e da altre tecnologie di intelligenza artificiale. Con l’avanzare dell’intelligenza artificiale (AI), è fondamentale affrontare le implicazioni etiche delle tecnologie emergenti e impegnarsi per ridurre i rischi che comportano per la società. Ciò potrebbe comportare la creazione di nuovi sistemi di intelligenza artificiale per rilevare l’audio fasullo, l’adozione di restrizioni e politiche più severe e l’educazione del pubblico sui pericoli delle tecnologie di imitazione del parlato.

I ricercatori ritengono che la creazione di modelli in grado di discriminare tra campioni audio autentici e fraudolenti potrebbe ridurre le minacce poste da questi algoritmi di intelligenza artificiale. Resta da vedere se queste tecnologie di intelligenza artificiale avranno un impatto netto positivo sulla società o se richiederanno l’uso di ulteriori sistemi di intelligenza artificiale per salvaguardare l’umanità da essi.

Fonte:OKNOOB, 10-02-2023