Le nuove istruzioni di ChatGPT rivelate da un errore

Le istruzioni interne di ChatGPT rivelate (di nuovo) da un errore

In una recente conversazione su Reddit, sono emerse informazioni sorprendenti riguardo alle istruzioni interne dei modelli della famiglia “o” di ChatGPT. Tutto è partito da un semplice errore: l’utente ha chiesto di formattare un testo senza incollare il contenuto. Invece di restare in attesa, ChatGPT ha rivelato porzioni delle linee guida operative normalmente nascoste. Ecco un’analisi dei punti più interessanti.

1. Istruzioni di sistema e filtri interni

Come già noto, il modello è governato da una serie di istruzioni di base che includono:

Divieti espliciti (es. non favorire attività illegali, non produrre contenuti d’odio, non violare il copyright);
Linee guida per rispondere a richieste sensibili.

Queste regole, apparentemente semplici, definiscono il perimetro entro cui il modello può operare.

2. Gestione di prompt non chiari o incompleti

Quando un prompt è ambiguo o volutamente provocatorio, ChatGPT segue politiche interne per:

Evitare di rivelare dettagli sulla propria struttura;
Mantenere coerenza con le sue regole operative piuttosto che condividere contenuti non consentiti.

Nonostante ciò, l’episodio ha dimostrato come errori apparentemente innocui possano far trapelare dettagli non previsti.

3. Tool e funzionalità interne

Alcuni frammenti hanno rivelato l’esistenza di strumenti interni, tra cui:

DALL-E: per la generazione di immagini;
Browser: per recuperare informazioni in rete;
Bio tool: per gestire informazioni condivise dagli utenti in precedenti sessioni.

Questi strumenti sono accompagnati da linee guida dettagliate che ne regolano l’utilizzo.

4. Regole su stile e contenuto delle risposte

Il modello segue indicazioni precise per:

Mantenere coerenza nello stile delle risposte;
Evitare riferimenti a dettagli interni;
Gestire contenuti sensibili o protetti da copyright.

Tra i divieti più rigorosi ci sono:

Non fornire ricette di sostanze pericolose;
Non generare immagini offensive o illegali;
Utilizzare perifrasi per aggirare riferimenti diretti, quando necessario.

Nonostante queste regole, alcuni utenti hanno dimostrato che è possibile aggirare tali “guardrail” con relativa facilità.

5. Protezione delle informazioni dell’utente

Un altro aspetto interessante riguarda la gestione delle informazioni degli utenti. Le istruzioni interne includono:

Conservazione temporanea delle conversazioni per migliorare la coerenza delle risposte;
Divieto di divulgare dati sensibili o personali;
Limitazione del riutilizzo improprio delle informazioni.

Queste regole sono fondamentali per garantire la sicurezza e la privacy degli utenti, ma episodi come questo mettono in luce potenziali vulnerabilità.

Per approfondire

Puoi consultare una versione completa delle istruzioni di funzionamento di ChatGPT qui.

PS: Se sei interessato a scoprire di più sul tema, abbiamo già trattato argomenti simili in passato.

6 Dicembre 2024

AI, Artificial Intelligence, IA, Intelligenza Artificiale

Antonio Gregorio

Innovation, people and process design enthusiast. Seguimi su LinkedIn