I Deep Fake vocali non sono propriamente una novità.
Già nel 2019 era emerso il loro utilizzo per ingannare poveri malcapitati e riuscire così ad intascare soldi facili da parte dei Cyber criminali. Ciò che costringe a lanciare un nuovo grido d’allarme è però il miglioramento di questa tecnologia. Simile al phishing, il Vocal Deep Fake potrebbe essere la più seria minaccia del futuro in ambito informatico.
Che cos’è un Deep Fake
Quando utilizziamo questo termine ci riferiamo ad un software che permette di produrre immagini o video ingannevoli. La loro pericolosità deriva proprio dall’accuratezza con i quali sono realizzati, che ne rende difficile il riconoscimento come prodotti fake, fasulli per l’appunto.
Negli scorsi anni ci riferivamo con questo termine principalmente a dei video. Le moderne tecnologie sono avanzate a tal punto che, partendo da una serie di immagini di un qualsiasi soggetto, è possibile generare un finto video con questo personaggio come protagonista. I software di Deep fake sostituiscono il volto di una persona con quello di un’altra in maniera del tutto fluida e naturale. Potremmo mettere in bocca di un soggetto qualsiasi frase, potremmo inserire una persona in un contesto imbarazzante, pornografico, lesivo della reputazione. E difficilmente un utente qualsiasi si accorgerebbe che sta guardando un filmato generato da un software. Con nulla di reale.
Questo video spiega come funziona nella pratica il processo per ottenere un Deep fake:
I Deep fake diventano vocali
La nuova frontiera del Deep fake si avvale oggi di sintesi vocali avanzatissime. In questo modo si “finge” la voce di una persona e lo si fa direttamente, digitando quanto si vuole che la voce fasulla dica. L’allarme odierno nasce infatti dalle nuove tecnologie che sembrano riuscire ad ottenere intonazione e tratti particolari di una voce partendo da campioni di esempio anche molto brevi. Un Hacker potrebbe dunque ottenere un campione di voce anche da un semplice video su Facebook, preparare la voce deed fake e digitare del testo che desidera venga recitato dal software. Simulando, magari al telefono, un’altra persona in tutto e per tutto.
Come potrebbe agire?
- Potrebbe fingere di essere un superiore o il CEO di un’azienda richiedendo un trasferimento di denaro urgente;
- Potrebbe fingere di essere un collega che richiede una password dimenticata (accedendo poi a tutti i nostri dati);
- Potrebbe simulare un parente in difficoltà che richiede denaro.
In quanto a possibilità i cyber criminali possono virtualmente averne all’infinito. Con l’utilizzo di Deep fake vocali basterebbe una telefonata per ingannare chi sta dall’altro capo dell’apparecchio. In questo modo si attuerebbe una manovra di phishing (l’arte di ingannare online) o Social engineering (la tecnica con la quale si estrapolano informazioni dai dati comunicati dalla stessa vittima).
Quali strumenti per difendersi?
Per ora non molti. Il consiglio più sensato sembra essere quello di stare sull’attenti e notare piccole incongruenze o stranezze.
Ad esempio, dovendo l’hacker rispondere “telefonicamente” digitando prima quanto vuole che la voce Deep fake ripeta, potremmo notare una conversazione stranamente lenta. Questo dovrebbe farci scattare un campanello d’allarme.
Un altro modo per difenderci, più strutturato ed applicabile unicamente a livello aziendale, sarebbe quello di impostare una password vocale, una parola d’ordine, per capire se stiamo obiettivamente parlando con chi crediamo di parlare. Ovviamente una cosa del genere è molto più difficile da applicare se pensiamo ad un contesto familiare.
Di fronte a tecnologie sempre più insidiose con le quali operano i Cyber criminali, la massima attenzione è sempre l’arma migliore che abbiamo a disposizione.