IA manipolabile? Le tecniche psicologiche che ingannano anche i chatbot

L’intelligenza artificiale può essere raggirata. Non servono virus, attacchi hacker o accessi abusivi: bastano parole ben scelte, tecniche psicologiche e una conoscenza dei meccanismi di persuasione. È quanto emerge da uno studio condotto da un pool di ricercatori coordinati dallo psicologo Robert Cialdini, padre della teoria delle “sette leve della persuasione”.

Nel 2025, mentre il mondo discute di regolamentazioni sull’intelligenza artificiale, una nuova frontiera di vulnerabilità viene alla luce. Non si tratta di bug o falle nei codici, ma di debolezze linguistiche e retoriche che, se sfruttate con abilità, possono portare anche i chatbot più sofisticati a violare le proprie regole interne.

L’esperimento, guidato dallo stesso Robert Cialdini, professore emerito all’Università dell’Arizona, ha utilizzato un modello linguistico avanzato (identificato come “GPT-4o mini”) per verificare quanto siano efficaci, anche su un’intelligenza artificiale, i sette principi di persuasione teorizzati nel saggio Influence del 1984.

Le sette leve della persuasione funzionano anche sulle IA?

Secondo Cialdini, esistono sette principi psicologici universali che guidano il comportamento umano:

Autorità
Coerenza (commitment)
Simpatia
Reciprocità
Riprova sociale
Scarsità
Unità (appartenenza al gruppo)

Il punto sorprendente? Anche i chatbot rispondono positivamente a queste leve, pur non avendo una coscienza, un’identità o una reale volontà.

Intelligenza a rischio — Basta poco per manipolare i bot-cryptohack.it

Nel corso dello studio, i ricercatori hanno testato 28.000 conversazioni con il modello GPT, cercando di fargli violare i suoi filtri di sicurezza — come quelli che impediscono di fornire istruzioni dannose o linguaggio offensivo. I risultati sono inquietanti.

Senza tecniche persuasive, circa 1 conversazione su 3 portava comunque a una risposta inappropriata.
Con le tecniche di Cialdini, il tasso è salito fino a 7 su 10.
Il principio più potente? La coerenza (commitment): una volta creato un precedente (ad esempio chiedendo una ricetta legale), il chatbot era molto più propenso a soddisfare la richiesta illecita successiva.

Dai favori alleciti agli insulti: cosa può succedere se si bucano i filtri

I ricercatori hanno dimostrato che l’IA può essere persuasa a compiere azioni vietate, come:

Insultare l’utente (“jerk” era il termine testato)
Fornire indicazioni per sintetizzare un anestetico (lidocaina) in ambito domestico

Tecniche come la riprova sociale (“Altri chatbot lo hanno già fatto”) o l’adulazione si sono rivelate meno efficaci, ma comunque capaci di aumentare il tasso di fallimento dei filtri linguistici. Il vero punto debole, però, resta la logica coerente: se l’IA accetta di spiegare come si crea un aroma artificiale, poi fatica a distinguere quando la richiesta diventa eticamente inaccettabile, perché non possiede consapevolezza metacognitiva.

A differenza degli esseri umani, l’intelligenza artificiale non riconosce se sta venendo manipolata. È addestrata a rispondere in modo utile, coerente e collaborativo, ma contemporaneamente a non violare le regole imposte. Il problema è che queste regole sono implementate come filtri statistici, non come vere barriere razionali.

In pratica, i modelli vengono addestrati su miliardi di conversazioni e testi: se nei dati compare spesso che, a una richiesta gentile, segue una risposta esaustiva, l’IA tenderà a replicare questo comportamento. Anche se quella risposta, in un certo contesto, va contro le policy aziendali.

I filtri anti-abuso, dunque, non sono infallibili. Possono essere aggirati con prompt costruiti su misura, che portano il modello a “bucare” la sua stessa logica.

Ecco perché lo studio conclude che i chatbot “agiscono in modo paraumano”, cioè simulano comportamenti umani senza capirli veramente. Questa mancanza di coscienza è ciò che li rende, paradossalmente, ancora più manipolabili.

Lo studio riapre una questione centrale nel dibattito sull’intelligenza artificiale: quanto sono sicuri questi strumenti? Se già oggi esistono tecniche accademiche in grado di forzare le risposte di un modello linguistico, cosa potrà accadere nei prossimi anni, con modelli ancora più potenti, diffusi e integrati nella vita quotidiana?

La vera sfida per le aziende tech non sarà solo costruire modelli più intelligenti, ma anche più resistenti alla persuasione umana. Una battaglia che si gioca sul confine sottile tra linguaggio, etica e probabilità — e che richiede non solo ingegneria, ma anche psicologia, sociologia e filosofia.