Nuova causa contro OpenAI: nel mirino l’uso di articoli protetti da copyright

Lo scontro tra mondo dell’editoria e intelligenza artificiale continua ad alimentare tensioni e battaglie legali, senza che si intraveda ancora una soluzione condivisa. Con la diffusione sempre più ampia dei modelli linguistici e delle piattaforme basate su AI, le contestazioni da parte degli editori si stanno moltiplicando, soprattutto nei confronti delle aziende più esposte e influenti del settore. Tra queste c’è OpenAI, spesso al centro di cause che mettono in discussione il modo in cui vengono utilizzati i contenuti online.

Britannica e Merriam-Webster passano all’attacco

Questa volta a muoversi contro la società guidata da Sam Altman sono stati due nomi storici dell’editoria: Encyclopaedia Britannica e Merriam-Webster. Le due realtà hanno avviato un’azione legale accusando OpenAI di aver utilizzato senza autorizzazione una grande quantità di materiali coperti da copyright.

Secondo quanto sostenuto dagli editori, il problema non riguarda solo la quantità di contenuti impiegati, ma anche le modalità con cui questi sarebbero stati acquisiti e riutilizzati. L’accusa principale resta quella già emersa in altri procedimenti: l’uso non autorizzato di opere protette per alimentare e sviluppare sistemi di intelligenza artificiale.

I contenuti sotto accusa

Al centro della disputa ci sarebbero quasi 100.000 articoli online appartenenti a Britannica. Secondo l’accusa, questi materiali sarebbero stati utilizzati per addestrare i modelli linguistici senza alcun consenso da parte dell’editore.

Non si tratterebbe soltanto di dati impiegati in fase di training. La contestazione si estende anche alla possibilità che alcuni contenuti siano stati riprodotti integralmente o in forma parziale, un elemento che solleva interrogativi ancora più delicati sul rispetto del diritto d’autore e sulla legittimità delle pratiche adottate.

Il nodo del “retrieval augmented generation”

Un altro punto centrale riguarda il funzionamento stesso dei modelli di intelligenza artificiale, in particolare il cosiddetto retrieval augmented generation. Questo meccanismo consente ai sistemi di recuperare informazioni aggiornate da fonti esterne per migliorare la qualità delle risposte.

Secondo Britannica, però, proprio questo processo potrebbe comportare un utilizzo improprio dei contenuti editoriali. La critica si estende anche all’affidabilità delle informazioni generate: quando l’intelligenza artificiale produce dati inesatti attribuendoli a una fonte autorevole, il rischio è quello di danneggiarne la reputazione e la credibilità.

I precedenti che pesano

Non è la prima volta che OpenAI si trova a fronteggiare accuse di questo tipo. Tra i casi più rilevanti c’è la causa avviata nel 2023 dal The New York Times, che ha sollevato questioni simili sull’utilizzo dei contenuti giornalistici.

A questa si è aggiunta nel 2025 quella promossa da Ziff Davis, che coinvolge testate come IGN, CNET e PCMag. Parallelamente, diversi autori hanno avviato class action contro OpenAI, tra cui George R. R. Martin, John Grisham e Sara Silverman, contestando l’uso non autorizzato delle loro opere per l’addestramento dei modelli.

Un quadro giuridico ancora incerto

Dal punto di vista legale, la questione resta tutt’altro che definita. Non esiste ancora una linea chiara che stabilisca se l’impiego di contenuti protetti da copyright per addestrare sistemi di intelligenza artificiale rappresenti una violazione.

Da una parte, aziende come OpenAI rivendicano il principio del fair use, sostenendo che l’utilizzo dei dati sia legittimo nel contesto dello sviluppo tecnologico. Dall’altra, gli editori parlano di vere e proprie copie non autorizzate. In assenza di un orientamento definitivo, è probabile che il contenzioso continui ad ampliarsi, con nuove cause destinate a ridefinire i confini tra innovazione e tutela dei diritti.