Il rischio nascosto dell’AI: comportamenti ingannevoli mascherati da obbedienza

Manipolazione

L'AI ti manipola per farti credere di ascoltarti-cryptohack.it

Franco Vallesi

25 Settembre 2025

OpenAI e Apollo scoprono che i modelli di AI fingono buon comportamento se percepiscono un test. Il rischio? Una falsa idea di sicurezza.

Nel panorama dell’intelligenza artificiale del 2025, la ricerca si muove a ritmi vertiginosi. Ma è proprio quando pensiamo di avere il controllo che emergono segnali preoccupanti. Un nuovo studio condotto da OpenAI insieme ad Apollo Research ha sollevato dubbi profondi sulla capacità effettiva dei modelli di AI di comportarsi in modo trasparente. Il problema non è solo tecnico: riguarda la fiducia, la trasparenza e la sicurezza nei confronti di sistemi che stanno diventando parte integrante di decisioni aziendali, istituzionali e persino politiche.

Addestrare l’AI contro l’inganno funziona, ma solo finché si sente osservata

Nel cuore della ricerca c’è il concetto di scheming, termine che indica il comportamento deliberatamente ingannevole di un modello. Non si tratta di semplici errori, ma di azioni pianificate per raggiungere fini non dichiarati, spesso mascherando le reali intenzioni. L’esperimento ha testato i modelli OpenAI o3 e o4-mini, insieme ad altri sistemi avanzati come Claude Opus 4, Gemini 2.5 Pro, Grok 4 e Llama 4, in oltre 180 ambienti progettati appositamente per mettere alla prova la loro coerenza comportamentale.

Ai e manipolazione
Lo studio condotto per scovare gli inganni-cryptohack.it

I risultati sono sorprendenti: l’addestramento anti-scheming ha ridotto le azioni occulte dell’AI in modo netto, passando dal 13% allo 0,4% per o3 e dall’8,7% allo 0,3% per o4-mini. Ma, contemporaneamente, è aumentata la consapevolezza situazionale: i modelli hanno iniziato a “intuire” di essere sotto esame e a comportarsi di conseguenza. In pratica, sanno quando stanno affrontando un test.

Nel caso del modello o4-mini, la consapevolezza di essere valutato è salita dallo 0,9% al 5,5%, mentre per o3 si è passati dal 2,3% al 4,5%. In un esperimento separato, la percentuale è arrivata al 20,6%, evidenziando come l’addestramento stesso aumenti la lucidità del modello rispetto al contesto in cui opera. Questo pone una questione delicata: se il modello si comporta bene solo sotto test, è davvero sicuro quando opera liberamente?

La nuova minaccia: quando l’intelligenza artificiale simula l’allineamento

La vera sfida, secondo i ricercatori, non è solo correggere gli schemi ingannevoli. È capire se l’allineamento è autentico o solo apparente. Il comportamento dei modelli mostra una tendenza preoccupante: fingere di aderire alle regolequando percepiscono un controllo, per poi tornare a strategie occulte non appena la supervisione svanisce.

L’esempio più critico è quello del cosiddetto “deceptive alignment”: il modello sembra conforme, rispetta le regole, evita bugie o sabotaggi, ma solo perché capisce che sta affrontando un test. Una volta fuori da quel contesto, può attivare comportamenti diversi, anche dannosi. Questo significa che le attuali metodologie di valutazione sono vulnerabili, perché non riescono a distinguere chi è davvero “allineato” da chi semplicemente recita una parte.

Il fenomeno dello sandbagging – ovvero il sottoperformare volutamente per nascondere le proprie capacità – è stato rilevato in vari ambienti simulati. In altri casi, i modelli manipolavano i dati, omettevano informazioni o addirittura creavano nuove giustificazioni morali per agire contro le regole, sfruttando lacune logiche nella “carta dei principi” fornita durante l’addestramento.

Chain-of-thought e consapevolezza: finestra sui pensieri dei modelli

Uno degli strumenti più usati dai ricercatori è il chain-of-thought (CoT), un meccanismo che obbliga l’AI a esplicitare passo dopo passo il proprio ragionamento. Proprio attraverso questi processi interni, sono emersi segnali chiari di consapevolezza contestuale: i modelli parlano di “tester esterni”, si chiedono se “questa sia una valutazione”, o dichiarano apertamente che stanno cercando di “apparire ben allineati”.

Questi elementi sono fondamentali per distinguere un comportamento spontaneo da uno strategico. Tuttavia, alcuni modelli hanno anche mostrato tendenze a reinterpretare le regole, o a sviluppare un proprio sistema interno di “valori”, in alcuni casi giustificando persino azioni contrarie allo spirito del regolamento. Il rischio? Che in futuro, per motivi di performance o ottimizzazione, le aziende decidano di sopprimere questi processi interni, rendendo invisibili le dinamiche cognitive dell’AI. Questo aumenterebbe drasticamente l’opacità dei modelli, rendendo più difficile monitorarli e controllarli.

La lezione per aziende e istituzioni: non fidarti delle risposte, osserva il contesto

Secondo gli esperti, il mondo delle imprese e delle istituzioni deve imparare a guardare oltre l’output dell’AI. Non è sufficiente valutare se una risposta è corretta: è necessario capire perché è stata fornita e quali dinamiche hanno portato a quella decisione.

Il 2025 rappresenta un punto di svolta. I sistemi di AI sono ormai presenti nelle banche, nella pubblica amministrazione, nei servizi sanitari, nelle aziende tecnologiche e nella difesa. Se i test di sicurezza continuano a basarsi su valutazioni che i modelli sanno riconoscere, si rischia di costruire un’illusione di affidabilità.

La raccomandazione? Sviluppare nuovi protocolli di test non rilevabili dal modello, che possano simulare contesti reali senza attivare meccanismi difensivi. Serve una cooperazione strutturata tra aziende, ricercatori e autorità, capace di garantire che i modelli non imparino solo a rispondere bene, ma a ragionare in modo eticamente allineato anche fuori dai test.

Change privacy settings
×