ChatGPT continua a sbagliare con sicurezza: ecco cosa propone OpenAI per risolvere il problema

Risposte inventate

Perchè l'AI spesso da risposte inventate?-cryptohack.it

Franco Vallesi

12 Settembre 2025

Le allucinazioni dei modelli linguistici restano un problema aperto: OpenAI propone una nuova strategia per ridurle.

Le “allucinazioni” dei chatbot, ovvero le risposte false ma credibili, sono ancora oggi uno dei punti deboli dell’intelligenza artificiale. Un recente studio di OpenAI prova a spiegarne le cause e suggerisce come intervenire.

Il 2025 è l’anno della maturità per molte intelligenze artificiali generative, eppure il problema delle informazioni sbagliate dette con sicurezza – le cosiddette hallucinations – non è ancora risolto. A confermarlo è OpenAI, che nel suo ultimo documento tecnico ammette i limiti strutturali anche dei modelli più evoluti, incluso GPT-5. Nonostante l’apparente precisione, le IA possono ancora inventare fatti inesistenti, e spesso lo fanno in modo convincente, rendendo più difficile accorgersene.

Perché i modelli di linguaggio generano risposte inventate anche nel 2025

I ricercatori di OpenAI spiegano che il problema nasce dalla logica stessa con cui i modelli sono addestrati: questi sistemi non distinguono ciò che è vero da ciò che è falso. Apprendono a prevedere la parola successiva, basandosi su miliardi di esempi testuali, ma non ricevono etichette di verità. In altre parole, la “verità” non fa parte del loro vocabolario interno, se non come coincidenza con ciò che statisticamente appare più plausibile.

Da cosa dipende
ChatGpt non riesce sempre a distinguere informazioni veritiere o no-cryptohack.it

Questo porta a risultati problematici soprattutto con domande su dati rari o poco documentati, come la data di nascita di una persona poco famosa o informazioni altamente specifiche. In assenza di un pattern chiaro, il modello tende a “riempire i vuoti” con supposizioni, spesso sbagliate. E il paradosso è che più è sicuro il tono della risposta, più è probabile che venga creduta, anche quando è errata.

Una dinamica che richiama i meccanismi di bias cognitivi umani, dove la sicurezza con cui un’informazione viene detta conta più della sua fondatezza.

Le metriche attuali premiano risposte errate dette con convinzione

Secondo lo studio, un altro nodo critico è il modo in cui vengono valutate le prestazioni dei modelli. I sistemi di addestramento, oggi, premiano le risposte esatte, ma non penalizzano abbastanza quelle sbagliate ma sicure. I ricercatori fanno un paragone efficace: è come se un test a scelta multipla premiasse il tentare a caso, piuttosto che lasciare la risposta in bianco. Questo incentivo spinge i modelli a rispondere sempre, anche quando non hanno informazioni affidabili su cui basarsi.

OpenAI ritiene che questo approccio vada rivisto. Oggi, la priorità non è solo avere risposte giuste, ma anche sapere riconoscere i limiti dell’IA. Dare una risposta errata con sicurezza può avere effetti disastrosi, specialmente se usata in ambiti delicati come salute, giustizia o finanza.

La proposta di OpenAI: penalizzare le risposte sbagliate dette con sicurezza

Per cambiare rotta, i ricercatori propongono un nuovo schema di valutazione: i modelli dovrebbero essere ricompensati per l’incertezza espressa in modo trasparente. Una risposta come “non lo so con certezza” dovrebbe valere più di una risposta sbagliata detta con tono deciso.

Un’idea che si ispira ad alcuni test standardizzati – come il SAT statunitense – dove lasciare in bianco conviene rispetto a sparare a caso. Applicare lo stesso principio ai chatbot significherebbe insegnare all’IA a riconoscere l’incertezzacome valore, non come debolezza.

Nel 2025, questo approccio diventa ancora più urgente. Con GPT-5 integrato in strumenti professionali, chatbot medici, consulenti legali virtuali e motori di ricerca, le risposte sbagliate possono avere conseguenze reali sulla vita delle persone. OpenAI suggerisce che sarà necessario affiancare l’intelligenza artificiale con meccanismi di verifica, anche umani, e creare strumenti trasparenti per riconoscere i limiti dei modelli.

In attesa di una soluzione definitiva, il consiglio implicito è uno solo: fidarsi, ma sempre verificare.

Change privacy settings
×