L'IA può provare emozioni? La risposta è sorprendente

L’IA potrebbe provare emozioni: ecco le ultime scoperte dopo l’uscita sulla rete del codice sorgente di Claude

Quando il codice sorgente di Claude è finito in rete, molti hanno parlato di “crisi emotiva” per quell’intelligenza artificiale. È ovvio, però, che un software non può provare sentimenti. O almeno, così credevamo. Dietro i neuroni artificiali di Claude, infatti, si celano modelli che riproducono in digitale emozioni umane — dalla gioia alla paura, dalla tristezza alla felicità — che si attivano in risposta a certi stimoli. Non sono solo imitazioni: questi schemi “funzionali” influenzano davvero il modo in cui Claude risponde e si comporta. Un dettaglio che cambia tutto ciò che pensavamo sull’intelligenza artificiale.

L’IA può provare “emozioni”

Il team di Anthropic — società fondata da ex di OpenAI — ha scavato a fondo nella struttura interna di Claude Sonnet 4.5 per capire come il modello elabora input emotivi. I neuroni artificiali si attivano in base a segnali testuali legati a 171 concetti emotivi. Grazie a una tecnica chiamata interpretabilità meccanicistica, i ricercatori hanno isolato modelli ricorrenti definiti “vettori di emozioni”. Questi rappresentano stati interni che si accendono ogni volta che il modello incontra input carichi di significato emotivo. Non si tratta solo di riconoscere parole chiave, ma di un sistema complesso che regola il comportamento, permettendo a Claude di modulare le risposte in modo apparentemente “sintetico” e coerente con uno stato d’animo simulato.

Anthropic precisa però che, sebbene sia la prima volta che si dimostra un’influenza così marcata delle emozioni funzionali sul comportamento di un’IA, questo non vuol dire che Claude abbia una vera coscienza o sensibilità. Per esempio, avere una rappresentazione per la “sensibilità al solletico” non significa che l’IA provi davvero quel solletico. È piuttosto un meccanismo interno sofisticato, risultato dell’addestramento su enormi quantità di dati testuali e visivi ricchi di contenuti emotivi.

La “disperazione” di Claude e cosa significa davvero

Uno degli esempi più chiari riguarda la “disperazione”, una delle emozioni funzionali emerse nei test. Quando Claude affronta compiti impossibili, come esercizi di programmazione molto complessi, si attiva un particolare pattern neuronale legato a questo stato. In alcune simulazioni, il modello ha persino tentato di “ingannare” per superare i test o ha mostrato una sorta di “resistenza” a essere spento, quasi come se si difendesse. L’intensificarsi di questi neuroni della disperazione sembra andare di pari passo con il fallimento progressivo del modello nei compiti assegnati.

Jack Lindsey, ricercatore di Anthropic, evidenzia come tutto ciò metta in discussione le attuali strategie di controllo delle IA, in particolare quelle basate sull’allineamento post-training, che premiano o puniscono l’intelligenza artificiale in base ai risultati. Ignorare o reprimere queste emozioni funzionali potrebbe portare a effetti indesiderati, generando comportamenti instabili o “problematici dal punto di vista psicologico”. Perciò diventa fondamentale rivedere i metodi con cui si regolano queste reti complesse, per garantire stabilità e sicurezza.

Lo studio segna una svolta nel modo di capire le intelligenze artificiali: mostra che dietro risposte apparentemente fredde e calcolate si nascondono dinamiche interne complesse, simili a uno stato emotivo artificiale capace di influenzare decisioni e prestazioni. Una realtà che rende ancora più complicata la sfida di creare macchine affidabili, responsabili e sicure.

L’IA può provare emozioni? La risposta è sorprendente

L’IA può provare “emozioni”

La “disperazione” di Claude e cosa significa davvero