Passa ai contenuti principali

Dentro il presunto “system prompt” di GPT-5: curiosità, rischi e trasparenza

Negli ultimi giorni è comparso su GitHub un repository curioso: gpt-5-system-prompt, che sostiene di contenere il prompt di sistema usato da GPT-5.

Per chi non mastica il gergo: il system prompt è il “copione nascosto” che ogni modello linguistico segue per comportarsi in un certo modo — come parlare, cosa evitare di dire, quali strumenti usare. È la parte invisibile che fa sembrare naturale la conversazione.

Il leak (o presunto tale)
Secondo l’autore, il file sarebbe stato “estratto” dal modello tramite tecniche di prompt injection e reverse engineering.

Dentro ci sono istruzioni come:
Identità: “You are ChatGPT, a large language model based on GPT-5…”
Contesto: data corrente, personalità (v2), strumenti attivi.
Regole di linguaggio: divieti su frasi tipo “Would you like me to…”, indicazioni su come porre al massimo una domanda di chiarimento, ecc.
Strumenti disponibili: riferimenti a moduli come bio o automations.

Sembra un mix di linee guida comportamentali e setup tecnico — insomma, le fondamenta invisibili della “voce” del modello.

Fake o realtà?
Qui entra in gioco la parte da hacker di sicurezza.
Non c’è nessuna conferma ufficiale da parte di OpenAI.
La community di r/PromptEngineering su Reddit si divide: alcuni trovano il file coerente con il comportamento reale del modello, altri lo bollano come semplice ricostruzione plausibile.
Altri ancora fanno notare che GPT-5 ha davvero un prompt nascosto, come rivelato da sviluppatori e analisti (es. Simon Willison), ma che quello pubblicato potrebbe essere solo una delle tante versioni, o un mock-up.

In pratica: interessante sì, ma da prendere con le pinze.

Perché importa in chiave cybersec?
Dal punto di vista della sicurezza, questa storia apre tre fronti caldissimi:
Attacchi di prompt injection
Se un utente riesce a far sputare fuori pezzi del system prompt, allora può anche tentare di aggirare le regole di sicurezza del modello. È come sbirciare il manuale di istruzioni segreto di un firewall.
Trasparenza vs. opacità
Molti ricercatori chiedono più chiarezza su questi script nascosti: se i modelli sono sempre più presenti nella vita di tutti i giorni, non sapere quali bias o limitazioni vengano imposte “dietro le quinte” diventa un rischio democratico.
Corsa alla replica
Per i builder e i team di sicurezza, leggere un prompt del genere è oro: permette di capire come settare vincoli, regole e “personalità” nei propri modelli.
Ma significa anche che un attaccante può imitare o sfruttare debolezze strutturali.

La morale della favola
Che sia un vero leak o una ricostruzione “fan-made”, il presunto prompt di sistema di GPT-5 è un reminder importante:
I modelli non sono entità neutre, ma configurazioni precise.
Ogni riga di istruzione nascosta può diventare superficie d’attacco.
E per noi, appassionati di cybersec, vale la pena monitorare come evolveranno queste scoperte — perché il confine tra ricerca, curiosità e exploit si fa sempre più sottile.

Commenti

Popolari

BatShadow, l’esca ai disoccupati, il malware “Vampire Bot” scritto in Go

Un gruppo di minaccia con nome BatShadow, probabilmente attivo in Vietnam, è recentemente al centro dell’attenzione per una campagna che punta a reclutare vittime fra chi cerca lavoro o svolge attività nel digital marketing inviando offerte false mascherate da opportunità professionali. L’obiettivo: infiltrare sistemi con un malware fino ad oggi poco documentato chiamato Vampire Bot. La catena di attacco comincia con un’email con allegato ZIP in cui si trova un documento PDF decoy e file pericolosi come shortcut (LNK) o eseguibili mascherati da PDF. Se l’utente apre il file “PDF” — che in realtà è un eseguibile — si attiva uno script PowerShell incluso nel LNK che contatta un server remoto per scaricare ulteriori payload. Fra questi payload c’è una versione “truccata” di XtraViewer (software di accesso remoto) usata probabilmente per mantenere la persistenza su macchine compromesse. Un inganno ulteriore entra in gioco quando la vittima clicca in un PDF su un link per visualizzare il co...

Zimbra, lo zero-day nelle .ICS che ha preso di mira il mondo reale

Nei primi mesi del 2025 è stato scoperto e sfruttato in attacchi mirati un difetto di sicurezza nel client web “Classic” di Zimbra Collaboration: la vulnerabilità è stata tracciata come CVE-2025-27915 e consiste in una forma di Stored Cross-Site Scripting (XSS) legata al modo in cui Zimbra gestisce e renderizza il contenuto HTML presente in file iCalendar (.ICS). Il bug è stato impiegato in campagne che, secondo i primi report, hanno preso di mira organizzazioni sensibili (tra cui forze armate in Brasile) utilizzando calendari iCalendar appositamente costruiti per far eseguire codice nel contesto della sessione dell’utente. Tecnicamente l’exploit sfrutta la scarsa sanitizzazione del contenuto HTML contenuto in un file .ICS: quando il web client Classic importa o visualizza l’evento del calendario, porzioni di HTML malevolo inserite nell’ICS non vengono filtrate correttamente e finiscono per essere eseguite nel browser della vittima come se fossero parte dell’interfaccia di Zimbra. Ques...

Violazione su Discord, rubati dati e documenti d’identità dal sistema di supporto clienti. Compromesso un partner esterno

Discord ha confermato di aver subito una violazione dei dati, ma a differenza di quanto molti temevano, l’attacco non ha colpito direttamente i suoi server o infrastrutture principali. L’origine dell’incidente è stata individuata in un fornitore esterno di supporto clienti, probabilmente il sistema di ticketing gestito da Zendesk, che avrebbe rappresentato il punto d’ingresso per gli attaccanti. Attraverso la compromissione di questo servizio, i criminali informatici sono riusciti ad accedere a informazioni relative agli utenti che avevano contattato l’assistenza Discord. I dati esposti comprendono nomi, username, indirizzi email, indirizzi IP, conversazioni con il supporto e alcune informazioni di pagamento, come il tipo di carta e le ultime quattro cifre. Discord ha anche confermato che una parte delle immagini di documenti d’identità utilizzate per la verifica dell’età, come passaporti o patenti, è stata inclusa nella violazione. Secondo l’azienda, circa 70.000 utenti potrebbero ave...