Cosa sono i deepfake? AI che inganna

I deepfake sono media - spesso video ma a volte audio - che sono stati creati, alterati o sintetizzati con l'aiuto del deep learning per tentare di ingannare alcuni spettatori o ascoltatori facendoli credere a un falso evento o falso messaggio.

L'esempio originale di un deepfake (dell'utente reddit / u / deepfake) ha scambiato il volto di un'attrice sul corpo di un attore porno in un video - il che, ovviamente, era completamente immorale, sebbene inizialmente non illegale. Altri deepfake hanno cambiato ciò che dicevano personaggi famosi o la lingua che parlavano.

Deepfakes estende l'idea del compositing di video (o film), che è stato fatto per decenni. Competenze video, tempo e attrezzature significative vengono utilizzati per la composizione video; I deepfake video richiedono molta meno abilità, tempo (supponendo che tu abbia GPU) e attrezzature, sebbene spesso non siano convincenti per gli osservatori attenti.

Come creare deepfake

In origine, i deepfake si basavano su autoencoder, un tipo di rete neurale non supervisionata, e molti lo fanno ancora. Alcune persone hanno perfezionato questa tecnica utilizzando i GAN (generative adversarial network). Altri metodi di apprendimento automatico sono stati utilizzati anche per i deepfake, a volte in combinazione con metodi non di apprendimento automatico, con risultati variabili.

Autoencoder

In sostanza, gli autoencoder per i volti deepfake nelle immagini eseguono un processo in due fasi. Il primo passo consiste nell'utilizzare una rete neurale per estrarre una faccia da un'immagine sorgente e codificarla in un insieme di caratteristiche e possibilmente una maschera, tipicamente utilizzando diversi livelli di convoluzione 2D, un paio di strati densi e uno strato softmax. Il secondo passaggio consiste nell'utilizzare un'altra rete neurale per decodificare le caratteristiche, eseguire l'upscaling della faccia generata, ruotare e scalare la faccia secondo necessità e applicare la faccia upscaled a un'altra immagine.

L'addestramento di un autoencoder per la generazione di volti deepfake richiede molte immagini dei volti di origine e di destinazione da più punti di vista e in varie condizioni di illuminazione. Senza una GPU, la formazione può richiedere settimane. Con le GPU, va molto più veloce.

GAN

Le reti generative antagoniste possono perfezionare i risultati degli autoencoder, ad esempio, mettendo due reti neurali l'una contro l'altra. La rete generativa cerca di creare esempi che abbiano le stesse statistiche dell'originale, mentre la rete discriminante cerca di rilevare deviazioni dalla distribuzione dei dati originale.

La formazione dei GAN è una tecnica iterativa dispendiosa in termini di tempo che aumenta notevolmente il costo in termini di tempo di calcolo rispetto agli autoencoder. Attualmente, i GAN sono più appropriati per la generazione di fotogrammi di immagini singole realistiche di persone immaginarie (ad esempio StyleGAN) che per la creazione di video deepfake. Ciò potrebbe cambiare man mano che l'hardware di deep learning diventa più veloce.

Come rilevare i deepfake

All'inizio del 2020, un consorzio di AWS, Facebook, Microsoft, il comitato direttivo per l'integrità dei media di Partnership on AI e accademici hanno creato la Deepfake Detection Challenge (DFDC), che si è svolta su Kaggle per quattro mesi.

Il concorso comprendeva due soluzioni prototipo ben documentate: un'introduzione e uno starter kit. Anche la soluzione vincente, di Selim Seferbekov, ha un resoconto abbastanza buono.

I dettagli delle soluzioni ti faranno incrociare gli occhi se non ti piacciono le reti neurali profonde e l'elaborazione delle immagini. In sostanza, la soluzione vincente ha rilevato il volto fotogramma per fotogramma e ha estratto le maschere indice SSIM (Structural Similarity). Il software ha estratto i volti rilevati più un margine del 30% e ha utilizzato EfficientNet B7 pre-addestrato su ImageNet per la codifica (classificazione). La soluzione è ora open source.

Purtroppo, anche la soluzione vincente è riuscita a catturare solo circa i due terzi dei deepfake nel database di test DFDC.

Creazione di deepfake e applicazioni di rilevamento

Una delle migliori applicazioni per la creazione di video deepfake open source è attualmente Faceswap, che si basa sull'algoritmo deepfake originale. Ci sono volute due settimane allo scrittore di Ars Technica Tim Lee, usando Faceswap, per creare un deepfake che ha scambiato il volto del tenente comandante Data (Brent Spiner) di  Star Trek: The Next Generation in un video di Mark Zuckerberg che testimonia davanti al Congresso. Come è tipico per i deepfake, il risultato non supera lo sniff test per chiunque abbia una notevole raffinatezza grafica. Quindi, lo stato dell'arte per i deepfake non è ancora molto buono, con rare eccezioni che dipendono più dall'abilità dell '"artista" che dalla tecnologia.

Questo è un po 'confortante, dato che anche la soluzione vincente di rilevamento DFDC non è molto buona. Nel frattempo, Microsoft ha annunciato, ma non ha rilasciato al momento della stesura di questo documento, Microsoft Video Authenticator. Microsoft afferma che Video Authenticator può analizzare una foto o un video per fornire una probabilità percentuale, o un punteggio di affidabilità, che il supporto venga manipolato artificialmente.

Video Authenticator è stato testato con il set di dati DFDC; Microsoft non ha ancora riferito quanto sia migliore della soluzione vincente Kaggle di Seferbekov. Sarebbe tipico per uno sponsor di un concorso di intelligenza artificiale costruire e migliorare le soluzioni vincenti del concorso.

Facebook promette anche un rilevatore di deepfake, ma prevede di mantenere chiuso il codice sorgente. Un problema con i rilevatori di deepfake open source come quelli di Seferbekov è che gli sviluppatori della generazione di deepfake possono utilizzare il rilevatore come discriminatore in un GAN per garantire che il falso supererà quel rilevatore, alimentando alla fine una corsa agli armamenti AI tra generatori di deepfake e rilevatori di deepfake.

Sul fronte audio, Descript Overdub e il VoCo, dimostrato ma non ancora pubblicato, possono rendere la sintesi vocale quasi realistica. Ti alleni Overdub per circa 10 minuti per creare una versione sintetica della tua voce; una volta addestrato, puoi modificare le tue voci fuori campo come testo.

Una tecnologia correlata è Google WaveNet. Le voci sintetizzate da WaveNet sono più realistiche delle voci di sintesi vocale standard, anche se non del tutto al livello delle voci naturali, secondo i test di Google. Hai sentito le voci di WaveNet se di recente hai utilizzato l'emissione vocale dell'Assistente Google, della Ricerca Google o di Google Traduttore.

Deepfake e pornografia non consensuale

Come ho detto prima, il deepfake originale ha scambiato il volto di un'attrice sul corpo di un attore porno in un video. Da allora Reddit ha bandito il sub-Reddit / r / deepfake che ospitava quello e altri deepfake pornografici, poiché la maggior parte del contenuto era pornografia non consensuale, che ora è illegale, almeno in alcune giurisdizioni.

Un altro sotto-Reddit per i deepfake non pornografici esiste ancora in / r / SFWdeepfakes. Mentre gli abitanti di quel sub-Reddit affermano che stanno facendo un buon lavoro, dovrai giudicare da solo se, ad esempio, vedere la faccia di Joe Biden malamente simulata nel corpo di Rod Serling ha qualche valore - e se qualcuno dei deepfake passa lo sniff test per la credibilità. A mio parere, alcuni si avvicinano a vendersi come reali; la maggior parte può essere caritatevolmente descritta come rozza.

Il divieto di / r / deepfake non elimina, ovviamente, la pornografia non consensuale, che può avere molteplici motivazioni, incluso il revenge porn, che è di per sé un crimine negli Stati Uniti. Altri siti che hanno vietato i deepfake non consensuali includono Gfycat, Twitter, Discord, Google e Pornhub e infine (dopo aver trascinato molto il piede) Facebook e Instagram.

In California, gli individui presi di mira da contenuti deepfake sessualmente espliciti realizzati senza il loro consenso hanno una causa di azione contro il creatore del contenuto. Sempre in California, è vietata la distribuzione di contenuti multimediali audio o visivi deepfake dannosi che prendono di mira un candidato in corsa per una carica pubblica entro 60 giorni dalla sua elezione. La Cina richiede che i deepfake siano chiaramente etichettati come tali.

Deepfakes in politica

Molte altre giurisdizioni non hanno leggi contro i deepfake politici. Ciò può essere preoccupante, soprattutto quando i deepfake di alta qualità di personaggi politici sono ampiamente diffusi. Un deepfake di Nancy Pelosi sarebbe stato peggio del video convenzionalmente rallentato di Pelosi manipolato per far sembrare che stesse biascicando le sue parole? Potrebbe essere, se prodotto bene. Ad esempio, guarda questo video della CNN, che si concentra sui deepfake rilevanti per la campagna presidenziale del 2020.

Deepfakes come scusa

"È un deepfake" è anche una possibile scusa per i politici i cui video reali e imbarazzanti sono trapelati. Ciò è accaduto di recente (o presumibilmente è accaduto) in Malesia quando un sex tape gay è stato liquidato come deepfake dal ministro degli Affari economici, anche se l'altro uomo mostrato nel nastro ha giurato che era vero.

Il rovescio della medaglia, la distribuzione di un probabile deepfake amatoriale del malato presidente Ali Bongo del Gabon ha contribuito a un successivo colpo di stato militare contro Bongo. Il video deepfake ha avvertito i militari che qualcosa non andava, anche più della prolungata assenza di Bongo dai media.

Altri esempi di deepfake

Un recente video deepfake di All Star , il classico di Smash Mouth del 1999, è un esempio di manipolazione di video (in questo caso, un mashup di film popolari) per simulare la sincronizzazione labiale. Il creatore, l'utente di YouTube ontyj, osserva che "Mi sono preso la mano provando wav2lip e ora questo esiste ..." È divertente, anche se non convincente. Tuttavia, dimostra quanto sia migliorato il movimento delle labbra fasulle. Alcuni anni fa, il movimento innaturale delle labbra era di solito un omaggio a un video falso.

Potrebbe essere peggio. Dai un'occhiata a questo video deepfake del presidente Obama come bersaglio e Jordan Peele come pilota. Ora immagina che non includesse alcun contesto che lo rivelasse falso e includesse un invito all'azione incendiario.

Sei ancora terrorizzato?

Ulteriori informazioni su machine learning e deep learning:

  • Apprendimento profondo e apprendimento automatico: comprendi le differenze
  • Cos'è l'apprendimento automatico? Intelligenza derivata dai dati
  • Cos'è l'apprendimento profondo? Algoritmi che imitano il cervello umano
  • Spiegazione degli algoritmi di apprendimento automatico
  • Apprendimento automatico automatizzato o AutoML spiegato
  • Apprendimento supervisionato spiegato
  • Apprendimento semi-supervisionato spiegato
  • Spiegazione dell'apprendimento senza supervisione
  • Apprendimento per rinforzo spiegato
  • Cos'è la visione artificiale? AI per immagini e video
  • Cos'è il riconoscimento facciale? AI per il Grande Fratello
  • Cos'è l'elaborazione del linguaggio naturale? AI per parlato e testo
  • Kaggle: Dove i data scientist imparano e competono
  • Cos'è CUDA? Elaborazione parallela per GPU