Negli ultimi giorni è comparso su GitHub un repository curioso: gpt-5-system-prompt, che sostiene di contenere il prompt di sistema usato da GPT-5.
Per chi non mastica il gergo: il system prompt è il “copione nascosto” che ogni modello linguistico segue per comportarsi in un certo modo — come parlare, cosa evitare di dire, quali strumenti usare. È la parte invisibile che fa sembrare naturale la conversazione.
Il leak (o presunto tale)
Secondo l’autore, il file sarebbe stato “estratto” dal modello tramite tecniche di prompt injection e reverse engineering.
Dentro ci sono istruzioni come:
Identità: “You are ChatGPT, a large language model based on GPT-5…”
Contesto: data corrente, personalità (v2), strumenti attivi.
Regole di linguaggio: divieti su frasi tipo “Would you like me to…”, indicazioni su come porre al massimo una domanda di chiarimento, ecc.
Strumenti disponibili: riferimenti a moduli come bio o automations.
Sembra un mix di linee guida comportamentali e setup tecnico — insomma, le fondamenta invisibili della “voce” del modello.
Fake o realtà?
Qui entra in gioco la parte da hacker di sicurezza.
Non c’è nessuna conferma ufficiale da parte di OpenAI.
La community di r/PromptEngineering su Reddit si divide: alcuni trovano il file coerente con il comportamento reale del modello, altri lo bollano come semplice ricostruzione plausibile.
Altri ancora fanno notare che GPT-5 ha davvero un prompt nascosto, come rivelato da sviluppatori e analisti (es. Simon Willison), ma che quello pubblicato potrebbe essere solo una delle tante versioni, o un mock-up.
In pratica: interessante sì, ma da prendere con le pinze.
Perché importa in chiave cybersec?
Dal punto di vista della sicurezza, questa storia apre tre fronti caldissimi:
Attacchi di prompt injection
Se un utente riesce a far sputare fuori pezzi del system prompt, allora può anche tentare di aggirare le regole di sicurezza del modello. È come sbirciare il manuale di istruzioni segreto di un firewall.
Trasparenza vs. opacità
Molti ricercatori chiedono più chiarezza su questi script nascosti: se i modelli sono sempre più presenti nella vita di tutti i giorni, non sapere quali bias o limitazioni vengano imposte “dietro le quinte” diventa un rischio democratico.
Corsa alla replica
Per i builder e i team di sicurezza, leggere un prompt del genere è oro: permette di capire come settare vincoli, regole e “personalità” nei propri modelli.
Ma significa anche che un attaccante può imitare o sfruttare debolezze strutturali.
La morale della favola
Che sia un vero leak o una ricostruzione “fan-made”, il presunto prompt di sistema di GPT-5 è un reminder importante:
I modelli non sono entità neutre, ma configurazioni precise.
Ogni riga di istruzione nascosta può diventare superficie d’attacco.
E per noi, appassionati di cybersec, vale la pena monitorare come evolveranno queste scoperte — perché il confine tra ricerca, curiosità e exploit si fa sempre più sottile.
Commenti
Posta un commento