Passa ai contenuti principali

Attacchi ai modelli linguistici? La risposta arriva dalla teoria dei giochi (DataSentinel - Prompt injection)

Immagina di avere un assistente virtuale super intelligente, capace di rispondere a qualsiasi domanda, scrivere testi, analizzare dati e addirittura aiutarti con il codice. Ora immagina che qualcuno riesca a fargli fare cose che non dovrebbe, semplicemente... parlando con lui. Questo è il rischio degli attacchi chiamati prompt injection.

I modelli linguistici come ChatGPT, Gemini o Claude funzionano “a comando”: gli scrivi una richiesta (chiamata prompt) e loro rispondono. Ma se l’attaccante nasconde un’istruzione maliziosa dentro un messaggio apparentemente innocuo, il modello potrebbe eseguire quel comando, senza rendersene conto. È come se una parola magica nascosta dentro un’email riuscisse a ipnotizzare l’assistente.

Questa tecnica, che può sembrare fantascienza, è reale e già sfruttata. Si può usare per rubare dati, aggirare filtri, diffondere disinformazione o sabotare un’app che si affida a un modello linguistico. È un rischio concreto per tutti i sistemi che usano l’intelligenza artificiale in contesti sensibili, come medicina, giustizia, scuola, pubblica amministrazione.

Un gruppo di ricercatori ha proposto una soluzione nuova: usare la teoria dei giochi per insegnare ai modelli a difendersi. L’idea è semplice ma potente: immaginare il dialogo tra l’utente e l’IA come una partita a scacchi. Da una parte c’è chi cerca di mandare istruzioni maliziose, dall’altra l’IA che deve capire se si trova davanti a un avversario o a un amico.

Il sistema si chiama DataSentinel. È come un allenatore digitale che studia le mosse dell’utente e valuta se c’è un comportamento sospetto. Se nota qualcosa di strano, l’IA può ignorare il comando, bloccare la risposta o chiedere conferma. Non si tratta di censura, ma di autodifesa intelligente.

La forza di DataSentinel è che non si basa solo su elenchi di parole vietate, ma sul comportamento generale: analizza il “tono”, la struttura e l’intenzione nascosta nei prompt. In più, può adattarsi nel tempo, imparando dagli attacchi passati. È come se il modello diventasse più scaltro a ogni partita.

Per chi lavora nella sicurezza informatica, questa è una novità importante. Fino a oggi si è parlato tanto di attacchi informatici classici: malware, phishing, ransomware. Ma l’intelligenza artificiale apre una nuova frontiera, dove le minacce non arrivano più solo da virus o hacker, ma anche dal linguaggio stesso. Un codice maligno può essere una semplice frase in italiano.

Il futuro sarà pieno di assistenti virtuali, bot intelligenti e software che capiscono il linguaggio umano. Proteggerli da chi sa “parlare male” è una sfida enorme. Tecnologie come DataSentinel potrebbero essere la prima linea di difesa. E proprio per questo, anche chi non è esperto di sicurezza dovrebbe iniziare a farsi qualche domanda: chi parla con le nostre intelligenze artificiali? E soprattutto… cosa gli sta dicendo?

Commenti

Popolari

Cisco ASA sotto attacco, due zero-day sfruttati per prendere il controllo dei firewall e impiantare malware persistente

Negli ultimi giorni è uscita una notizia che vale la pena leggere con attenzione: sono stati sfruttati in attacco dei “zero-day” contro i firewall Cisco della famiglia Adaptive Security Appliance (ASA) e prodotti correlati, e diversi avvisi ufficiali invitano a intervenire subito. La storia è stata riportata da più testate tecniche e da Cisco stessa, che ha pubblicato patch e dettagli sulle falle coinvolte. Cosa è successo, in parole semplici? Alcuni bug nel servizio web/VPN dei dispositivi ASA permettono a un attaccante — inviando richieste appositamente costruite — di superare i controlli e far girare codice sul dispositivo. In pratica, chi sfrutta questi bug può eseguire comandi come se fosse l’amministratore del firewall. Cisco ha identificato più CVE coinvolte e ha confermato che almeno due di queste (quelle catalogate come sfruttate “in the wild”) sono state usate dagli aggressori prima che le correzioni fossero pubblicate. La cosa che preoccupa di più non è solo il controllo tem...

Microsoft revoca l’accesso del suo cloud all’intelligence israeliana

Microsoft ha annunciato di aver cessato e disabilitato una serie di servizi cloud e di intelligenza artificiale per un’unità del Ministero della Difesa israeliano (IMOD), dopo aver accertato che tali tecnologie erano state impiegate per sostenere un sistema di sorveglianza di massa sui civili palestinesi.  L’azione dell’azienda è stata attivata in risposta a un’inchiesta giornalistica coordinata dal Guardian, +972 Magazine e Local Call, che ha rivelato come l’Unità 8200 dell’intelligence israeliana avesse archiviato e analizzato milioni di telefonate intercettate tramite la piattaforma Azure, con il fine di monitorare gli spostamenti e guidare operazioni militari nella Striscia di Gaza e in Cisgiordania.  Nel comunicato interno rivolto ai dipendenti, il vicepresidente Brad Smith ha dichiarato che Microsoft non fornisce tecnologie che facilitino la sorveglianza di massa dei civili e che, dopo un’analisi interna, sono emersi elementi che violavano i termini di servizio dell’azie...

Oyster e il malvertising, fake installer di Microsoft Teams diffonde una backdoor

Negli ultimi giorni è emersa una nuova ondata di malvertising e SEO poisoning che punta a intercettare chi cerca il client Microsoft Teams sui motori di ricerca, reindirizzando gli utenti verso annunci o pagine di download fasulle che offrono un installatore contraffatto invece dell’app ufficiale. Secondo le prime segnalazioni, il file distribuito in queste pagine malevole è un installer camuffato che installa la backdoor nota come Oyster (anche indicata in passato come Broomstick/CleanUpLoader), dando agli aggressori un punto d’accesso remoto sui sistemi compromessi. A confermare la dinamica sono multiple realtà che monitorano la minaccia: Blackpoint SOC ha descritto la campagna come basata su SEO poisoning e annunci malvertising che spingono download ingannevoli, mentre analisti di settore e vendor hanno trovato varianti del loader ospitate su domini compromessi o su pagine generate appositamente per mimare download legittimi. Il malware viene spesso confezionato in installer Windows...