Passa ai contenuti principali

Attacchi ai modelli linguistici? La risposta arriva dalla teoria dei giochi (DataSentinel - Prompt injection)

Immagina di avere un assistente virtuale super intelligente, capace di rispondere a qualsiasi domanda, scrivere testi, analizzare dati e addirittura aiutarti con il codice. Ora immagina che qualcuno riesca a fargli fare cose che non dovrebbe, semplicemente... parlando con lui. Questo è il rischio degli attacchi chiamati prompt injection.

I modelli linguistici come ChatGPT, Gemini o Claude funzionano “a comando”: gli scrivi una richiesta (chiamata prompt) e loro rispondono. Ma se l’attaccante nasconde un’istruzione maliziosa dentro un messaggio apparentemente innocuo, il modello potrebbe eseguire quel comando, senza rendersene conto. È come se una parola magica nascosta dentro un’email riuscisse a ipnotizzare l’assistente.

Questa tecnica, che può sembrare fantascienza, è reale e già sfruttata. Si può usare per rubare dati, aggirare filtri, diffondere disinformazione o sabotare un’app che si affida a un modello linguistico. È un rischio concreto per tutti i sistemi che usano l’intelligenza artificiale in contesti sensibili, come medicina, giustizia, scuola, pubblica amministrazione.

Un gruppo di ricercatori ha proposto una soluzione nuova: usare la teoria dei giochi per insegnare ai modelli a difendersi. L’idea è semplice ma potente: immaginare il dialogo tra l’utente e l’IA come una partita a scacchi. Da una parte c’è chi cerca di mandare istruzioni maliziose, dall’altra l’IA che deve capire se si trova davanti a un avversario o a un amico.

Il sistema si chiama DataSentinel. È come un allenatore digitale che studia le mosse dell’utente e valuta se c’è un comportamento sospetto. Se nota qualcosa di strano, l’IA può ignorare il comando, bloccare la risposta o chiedere conferma. Non si tratta di censura, ma di autodifesa intelligente.

La forza di DataSentinel è che non si basa solo su elenchi di parole vietate, ma sul comportamento generale: analizza il “tono”, la struttura e l’intenzione nascosta nei prompt. In più, può adattarsi nel tempo, imparando dagli attacchi passati. È come se il modello diventasse più scaltro a ogni partita.

Per chi lavora nella sicurezza informatica, questa è una novità importante. Fino a oggi si è parlato tanto di attacchi informatici classici: malware, phishing, ransomware. Ma l’intelligenza artificiale apre una nuova frontiera, dove le minacce non arrivano più solo da virus o hacker, ma anche dal linguaggio stesso. Un codice maligno può essere una semplice frase in italiano.

Il futuro sarà pieno di assistenti virtuali, bot intelligenti e software che capiscono il linguaggio umano. Proteggerli da chi sa “parlare male” è una sfida enorme. Tecnologie come DataSentinel potrebbero essere la prima linea di difesa. E proprio per questo, anche chi non è esperto di sicurezza dovrebbe iniziare a farsi qualche domanda: chi parla con le nostre intelligenze artificiali? E soprattutto… cosa gli sta dicendo?

Commenti

Popolari

IPv6, come siamo passati dai camuffamenti (tunnel broker) su IRCNet alle sfide di sicurezza di oggi

All’inizio degli anni 2000, prima che l’IPv6 fosse una realtà comune, per connettersi alla nuova rete servivano i tunnel broker: nodi messi in piedi da appassionati o provider che permettevano di avere un indirizzo IPv6 incapsulato dentro IPv4. In Italia c’erano nomi che oggi sembrano quasi leggendari: NGnet, Zibibbo, e poi, su scala più internazionale, SixXS, che per anni ha fornito tunnel di altissima qualità fino a dichiarare “mission accomplished” e chiudere nel 2017. Erano anni in cui IPv6 era roba da smanettoni, e la comunità IRCNet italiana era uno dei posti dove questo “potere” trovava applicazioni creative. Personalmente lo usavo per camuffare il mio IPv4: mentre con un indirizzo 95.x.x.x il server IRC mostrava il reverse DNS dell’ISP, con IPv6 potevo scegliere il mio indirizzo nel blocco assegnato, evitando di esporre il mio IP reale e cambiandolo a piacere. In quel periodo circolavano anche strumenti curiosi, come ipv6fuck.c dell’autore “schizoid”, un codice C che serviva pe...

WinRAR sotto attacco, zero-day critica sfruttata da hacker russi

Il 10 agosto 2025 è stata resa pubblica la vulnerabilità CVE-2025-8088 di WinRAR, una falla di tipo directory traversal già sfruttata in attacchi mirati da RomCom, gruppo hacker legato alla Russia e noto per operazioni di cyber-spionaggio ed estorsione. Il problema risiede nella gestione dei percorsi all’interno di archivi compressi: un file RAR malevolo può includere riferimenti a directory specifiche del sistema, forzando WinRAR a estrarre file in percorsi diversi da quelli scelti dall’utente. In particolare, è possibile copiare eseguibili nelle cartelle di avvio automatico di Windows, come %APPDATA%\Microsoft\Windows\Start Menu\Programs\Startup o %ProgramData%\Microsoft\Windows\Start Menu\Programs\StartUp. Alla successiva accensione del PC, il malware viene avviato in automatico, ottenendo così persistenza sul sistema e potenzialmente consentendo il controllo remoto. Gli attacchi osservati sono stati condotti tramite campagne di spear-phishing: le vittime ricevevano email contenenti...

Nuovo attacco agli ambienti ibridi Microsoft, l’allarme lanciato a Black Hat. Active Directory ed Entra ID sotto esame, la tecnica che sfida MFA e controlli tradizionali

A Black Hat USA 2025 è stata mostrata una lezione dura ma utile per chiunque gestisca identità e mail aziendali: un ricercatore ha dimostrato come, in certi ambienti ibridi che sincronizzano Active Directory locale con Microsoft Entra ID (ex Azure AD), un account cloud apparentemente a bassa priorità possa essere trasformato in un account “ibrido” con privilegi amministrativi, senza passare dalle normali barriere di autenticazione e senza far scattare gli allarmi tradizionali. La dimostrazione — presentata da Dirk-jan Mollema di Outsider Security — ha messo in luce vettori di abuso legati al server di sincronizzazione (Entra Connect), alle modalità di corrispondenza degli account tra on-prem e cloud (soft matching) e a token/claim usati nei meccanismi di delega e in Exchange ibrido. Per chi non mastica quotidianamente questi termini: molte aziende hanno ancora un Active Directory “dentro l’azienda” per utenti e servizi, e allo stesso tempo usano servizi cloud come Microsoft 365. Per fa...