È ipotesi remota che ChatGPT fornisca un risultato che plagia opere preesistenti. Lo scrive un giudice americano

Il 7 novembre 2024 il Giudice McMahon della United States District Court - Southern District of New York ha emesso una importante decisione in cui ha fatto luce su uno degli aspetti più controversi del rapporto (delicato) tra diritto d'autore e funzionamento dei sistemi di intelligenza artificiale generativa.

In particolare ha scritto:

Quando un utente inserisce una domanda in ChatGPT, ChatGPT sintetizza le informazioni rilevanti nel suo archivio in una risposta. Data la quantità di informazioni contenute nel repository, la probabilità che ChatGPT possa generare contenuti plagiati da uno degli articoli degli attori sembra remota. E mentre gli attori forniscono statistiche di terze parti che indicano che una versione precedente di ChatGPT ha generato risposte contenenti quantità significative di contenuti plagiati [...] gli attori non hanno plausibilmente affermato che vi sia un "rischio sostanziale" che la versione attuale di ChatGPT generi una risposta che plagi uno degli articoli degli attori. Di conseguenza, gli attori non hanno titolo ai sensi dell'Articolo III per richiedere un provvedimento ingiuntivo per il loro presunto danno.

La diatriba legale ha visto confrontarsi OpenAI (parte convenuta) e le due società editrici Raw Story Media e AlterNet Media (parti attrici) e rappresenta un importante punto di riferimento per la giurisprudenza su questo tema.

Utilizzando un traduttore automatico e aggiustando un po' il testo, ho realizzato una traduzione italiana del provvedimento. La riporto di seguito. A questo link trovate invece il provvedimento originale.

In calce riporto anche una sintesi del documento, con gli estratti principali, tradotta da un originale a cura di Tori Guidry. A questo link invece trovate un articolo di commento del sito ai4business.it.

______________________________________________

UNITED STATES DISTRICT COURT SOUTHERN DISTRICT OF NEW YORK

RAW STORY MEDIA, Inc., ALTERNET MEDIA, INC., – Attori

vs.

OPENAI, INC., OPENAI GP, LLC, OPENAI, LLC, OPENAI OPCO LLC, OPENAI GLOBAL LLC, and OPENAI HOLDINGS, LLC, – Convenuti

DECISION AND ORDER

Gli attori Raw Story Media, Inc. e AlterNet Media, Inc. (collettivamente "Attori") hanno intentato questa azione, ai sensi del Digital Millennium Copyright Act (il "DMCA"), [...] contro OpenAI, Inc., OpenAI GP, LLC, OpenAI, LLC, OpenAI Opco LLC, OpenAI Global LLC e OpenAI Holdings, LLC (collettivamente, "convenuti" o " OpenAI"). OpenAI cerca di respingere integralmente il reclamo degli Attori [...]. Per i motivi di seguito indicati, la mozione di OpenAI per respingere la causa è ACCOLTA. La mozione degli attori per il permesso di replicare è NEGATA SENZA PREGIUDIZIO al rinnovo su un verbale appropriato, il che significa presentare un avviso di mozione a cui è allegata una proposta di modifica della dichiarazione, insieme a una spiegazione del motivo per cui la modifica proposta non sarebbe inutile.

BACKGROUND

Gli attori Raw Story Media, Inc. e AlterNet Media, Inc. sono organizzazioni di notizie che hanno pubblicato, collettivamente, "più di 400.000 articoli di cronaca, articoli di cronaca investigativa e colonne di opinione" online. [...] i convenuti OpenAI sono sette organizzazioni interconnesse, che operano nello Stato di New York, responsabili di un servizio di intelligenza artificiale noto come ChatGPT. [...] ChatGPT è un modello di linguaggio di grandi dimensioni ("LLM") basato su Al che consente agli utenti paganti di immettere prompt di testo a cui ChatGPT genererà risposte. Secondo gli attori, ChatGPT "dà l'impressione di essere una fonte 'intelligente' onnisciente delle informazioni fornite". [...]. Tuttavia, "ChatGPT non ha alcuna conoscenza indipendente delle informazioni fornite nelle sue risposte". [...] Piuttosto, ChatGPT viene addestrato su grandi quantità di testo, note come "set di addestramento". [...] "Questi set di addestramento spaziano da raccolte di link pubblicati sul sito web Reddit a uno scrape della maggior parte di Internet". [...] Gli attori sostengono che "migliaia" delle loro opere giornalistiche protette da copyright sono state catturate in questo "scrape", private del loro autore, titolo e informazioni sul copyright e inserite in almeno tre dei set di addestramento di OpenAI (WebText, WebText2 e Common Crawl). [...] Gli attori sostengono che questi tre set di addestramento sono stati poi utilizzati per addestrare ChatGPT. [...] Poiché a ChatGPT non sono state fornite informazioni su autore, titolo e copyright, gli attori sostengono che ChatGPT non avrebbe imparato a comunicare tali informazioni quando elaborava risposte alle richieste degli utenti basate sulle loro opere protette da copyright, [...] e che in effetti ChatGPT "generalmente non fornisce informazioni su autore, titolo e copyright applicabili alle opere su cui si basano le sue risposte". [...] Gli attori sostengono che la rimozione da parte dei convenuti delle informazioni sulla gestione del copyright (CMI) dalle opere degli attori, prima della formazione di ChatGPT, costituisce una violazione della Sezione 1202(b)(i) del Digital Millenium Copyright Act (il "DMCA"), per la quale gli attori hanno diritto a danni effettivi o legali. Gli attori chiedono inoltre un provvedimento ingiuntivo contro i convenuti. Gli attori sostengono che le versioni precedenti di ChatGPT hanno generato quantità significative di contenuti plagiati. [...] Se le opere degli attori rimangono nel repository di ChatGPT senza alcun CMI, gli attori sostengono che vi è una probabilità sostanziale che la versione corrente di ChatGPT riproduca, alla lettera o quasi alla lettera, le opere protette da copyright degli attori senza fornire l'autore, il titolo o le informazioni sul copyright contenute in tali opere. Vedere Prayer for Relief. OpenAI ha mosso una mozione per respingere il reclamo. [...] Il querelante si oppone alla mozione. [...]

PRINCIPI GIURIDICI

I. Sezione 1202(b)(i) del DMCA

La sezione l 202(b )(i) del DMCA stabilisce che:

Nessuna persona, senza l'autorizzazione del proprietario del copyright o della legge, ... rimuoverà o altererà intenzionalmente alcun [CMI] . .. sapendo, o relativamente ai rimedi civili ai sensi della sezione 1203, avendo ragionevoli motivi per sapere che ciò indurrà, consentirà, faciliterà o nasconderà una violazione di qualsiasi diritto ai sensi del presente titolo.

17 U.S.C. § 1202(b). Il Secondo Circuito ha ritenuto che questo statuto incorpori un cosiddetto requisito di doppio sciente: che il convenuto sappia "che il CMI è stato rimosso o modificato senza l'autorizzazione del proprietario del copyright o della legge" e sappia, "o abbia ragionevoli motivi per sapere che tale distribuzione indurrà, consentirà, faciliterà o nasconderà una violazione". [...]

II. Legittimazione ai sensi dell'Articolo III

"La legittimazione ai sensi dell'Articolo III richiede un danno concreto anche nel contesto di una violazione statutaria". [...] "Per stabilire la legittimazione, un attore deve dimostrare (i) di aver subito un danno di fatto concreto, particolareggiato e attuale o imminente; (ii) che il danno è stato probabilmente causato dal convenuto e (iii) che il danno sarebbe probabilmente riparato tramite un provvedimento giudiziario". [...] "La parte che invoca la giurisdizione federale ha l'onere di stabilire questi elementi". [...] La legittimazione non è dispensed in gross; piuttosto, i attori devono dimostrare di avere titolo ... per ogni forma di risarcimento che cercano (ad esempio, ingiunzione e danni)." TransUnion LLC, 594 U.S. a 431. 424:

"Cosa rende concreto un danno ai fini dell'articolo III?" TransUnion, 594 U.S. a 424:

In generale, la Corte ha spiegato che la storia e la tradizione offrono una guida significativa ai tipi di casi che l'articolo III autorizza le corti federali a considerare. E per quanto riguarda in particolare il requisito del danno concreto, l'opinione di questa Corte in Spokeo contro Robins ha indicato che le corti dovrebbero valutare se il presunto danno al querelante abbia una stretta relazione con un danno tradizionalmente riconosciuto come base per una causa nelle corti americane. Tale indagine chiede se i attori abbiano identificato uno stretto analogo storico o di common law per il loro presunto danno. Spokeo non richiede un duplicato esatto nella storia e nella tradizione americana. Ma Spokeo non è un invito aperto alle corti federali ad allentare l'articolo III in base alle convinzioni contemporanee e in evoluzione su quali tipi di cause dovrebbero essere ascoltate nelle corti federali.

Id. a 424-25. (citazioni e citazioni interne omesse).

DISCUSSIONE

I convenuti cercano di respingere la denuncia degli attori nella sua interezza. i convenuti sostengono che gli attori non hanno titolo ai sensi dell'articolo III per far valere le loro rivendicazioni e che la Corte non ha quindi giurisdizione in materia su questa azione [...]. i convenuti sostengono, in alternativa, che gli attori non sono riusciti a dichiarare una rivendicazione su cui può essere concesso un risarcimento [...]. "Se un querelante abbia titolo è la questione preliminare in ogni caso federale, che determina il potere della corte di prendere in considerazione la causa". [...] Di conseguenza, inizio la mia indagine qui.

Gli attori sostengono di avere titolo per perseguire due forme di risarcimento. In primo luogo, gli attori sostengono di avere titolo per perseguire i danni perché "la rimozione illecita di CMI da un'opera protetta da copyright è un danno concreto". In secondo luogo, i attori sostengono di avere titolo per richiedere un provvedimento ingiuntivo, perché hanno affermato che esiste un rischio sostanziale che il programma dei convenuti "fornisca risposte agli utenti che incorporano materiale tratto da opere protette da copyright dei attori o rigurgitino letteralmente o quasi letteralmente opere protette da copyright". [...] I convenuti rispondono che nessuna delle due teorie del danno identifica un danno concreto di fatto sufficiente a stabilire il titolo. Sono d'accordo con i convenuti. Le richieste degli attori sia per danni che per provvedimento ingiuntivo sono RESPINTE perché gli attori non hanno titolo ai sensi dell'Articolo III. Di conseguenza, non ho bisogno di raggiungere la mozione alternativa [...].

I. Gli attori non hanno titolo per perseguire la loro richiesta di risarcimento danni

Consideriamo l'affermazione dei attori in merito alla loro richiesta di risarcimento danni: che la rimozione non autorizzata di CMI dal loro lavoro protetto da copyright dà origine a un danno concreto di fatto, anche se non sostengono che una copia del loro lavoro da cui è stato rimosso il CMI sia stata diffusa da ChatGPT a chiunque in risposta a una richiesta specifica. [...] I attori sostengono che il loro danno ha una "stretta relazione" con l'illecito civile per violazione del copyright, perché "la protezione contro la rimozione o l'alterazione di CMI, [...] è analoga ai diritti di riprodurre le opere e preparare opere derivate, [...]" in quanto "entrambi concedono al proprietario del copyright l'esclusiva prerogativa di decidere in che modo le future iterazioni dell'opera possano differire dalla versione pubblicata dal proprietario". [...] I attori sostengono che questo, a sua volta, "è in accordo con il diritto comune, che riconosce l'interferenza con la proprietà, senz'altro, come un danno concreto". [...] Non sono convinto che il danno per interferenza con la proprietà fornisca il necessario "analogo storico o di common law" al presunto danno dei attori. Per prima cosa, gli attori sbagliano nel dire che la Sezione 1202 "concede al titolare del copyright la sola prerogativa di decidere in che modo le future iterazioni dell'opera possano differire dalla versione pubblicata dal titolare". Altre disposizioni del Copyright Act garantiscono tali protezioni, [...] ma non la Sezione 1202. La Sezione 1202 protegge i titolari del copyright da specifiche interferenze con l'integrità del CMI di un'opera. In altre parole, i convenuti possono, in assenza di autorizzazione, riprodurre o persino creare derivati delle opere degli attori, senza incorrere in responsabilità ai sensi della Sezione 1202, purché i convenuti mantengano intatto il CMI degli attori. In effetti, la cronologia legislativa del DMCA indica che lo scopo della legge non era quello di proteggere dai danni basati sulla proprietà. Piuttosto, si trattava di "garantire l'integrità del mercato elettronico prevenendo frodi e disinformazione" e di far sì che gli Stati Uniti rispettassero i propri obblighi ai sensi del Trattato sul diritto d'autore dell'Organizzazione mondiale per la proprietà intellettuale (OMPI), art. 12(1) ("Obblighi relativi alle informazioni sulla gestione dei diritti") e del Trattato sulle interpretazioni e i fonogrammi dell'OMPI, art. 19 (stesso).[...] Inoltre, non sono convinto che la mera rimozione di informazioni identificative da un'opera protetta da copyright, in assenza di diffusione, abbia un analogo storico o di common law. TransUnion è chiaro: "il danno degli attori deve essere in effetti concreto, ovvero reale e non astratto. [...]. gli attori sostengono che le loro opere protette da copyright (in assenza di CMI) sono state utilizzate per addestrare un programma software AI e rimangono nel repository di testo di ChatGPT. Ma gli attori non hanno affermato alcun effetto avverso effettivo derivante da questa presunta violazione del DMCA. L'argomentazione avanzata dagli attori è simile a quella del dissenso in TransUnion: "Se un convenuto viola un obbligo previsto dal DMCA nei confronti di uno specifico titolare del copyright, allora quel titolare del copyright ... ha un danno sufficiente per citare in giudizio in tribunale federale". [...] A questo, la maggioranza della Corte ha detto: "no". "Nessun danno concreto, nessuna legittimazione." [...] Di conseguenza, gli attori non hanno la legittimazione ai sensi dell'Articolo III per richiedere un risarcimento retrospettivo sotto forma di danni per il danno che sostengono.

A. Gli attori non hanno la legittimazione a perseguire la loro richiesta di provvedimento ingiuntivo

E quindi passiamo alla richiesta degli attori di provvedimento ingiuntivo. gli attori cercano un'ingiunzione "che obblighi i convenuti a rimuovere tutte le copie delle opere protette da copyright degli attori da cui le informazioni su autore, titolo, copyright e termini di utilizzo sono state rimosse dai loro set di formazione e da qualsiasi altro repository." Preghiera per il sollievo.

gli attori sostengono di avere diritto a tale ingiunzione perché, indipendentemente dal fatto che ChatGPT abbia o meno già riprodotto la loro opera protetta da copyright senza allegare il CMI richiesto, esiste un rischio sostanziale che ChatGPT lo faccia in futuro. "Una persona esposta a un rischio di danno futuro può perseguire un provvedimento ingiuntivo lungimirante per impedire che il danno si verifichi, almeno finché il rischio di danno è sufficientemente imminente e sostanziale." [...] "Un'affermazione di danno futuro può essere sufficiente se il danno minacciato è 'certamente imminente' o se c'è un 'rischio sostanziale che il danno si verifichi'". [...] Un rischio sostanziale significa che c'è un "pericolo realistico di subire un danno diretto". [...] i convenuti ammettono che ci sono chiari analoghi storici e di common law per questo tipo di danno. [...] Tuttavia, i convenuti sostengono che gli attori non hanno titolo per chiedere un provvedimento ingiuntivo perché non riescono ad allegare fatti che tendono a dimostrare che il rischio che ChatGPT riproduca il lavoro degli attori, in tutto o in parte, in assenza del CMI richiesto è "sostanziale". [...] Sono d'accordo con i convenuti. Gli attori sostengono che ChatGPT è stato addestrato su "una piccola parte di Internet". [...] gli attori non hanno mai affermato che le informazioni nei loro articoli siano protette da copyright, né potrebbero farlo. Quando un utente inserisce una domanda in ChatGPT, ChatGPT sintetizza le informazioni rilevanti nel suo archivio in una risposta. Data la quantità di informazioni contenute nel repository, la probabilità che ChatGPT possa generare contenuti plagiati da uno degli articoli degli attori sembra remota. E mentre gli attori forniscono statistiche di terze parti che indicano che una versione precedente di ChatGPT ha generato risposte contenenti quantità significative di contenuti plagiati [...] gli attori non hanno plausibilmente affermato che vi sia un "rischio sostanziale" che la versione attuale di ChatGPT generi una risposta che plagi uno degli articoli degli attori. Di conseguenza, gli attori non hanno titolo ai sensi dell'Articolo III per richiedere un provvedimento ingiuntivo per il loro presunto danno.

* * *

Chiariamo cosa è realmente in gioco qui. Il presunto danno per il quale gli attori cercano veramente un risarcimento non è l'esclusione di CMI dai set di formazione dei convenuti, ma piuttosto l'uso da parte dei convenuti degli articoli degli attori per sviluppare ChatGPT senza alcun compenso per gli attori. [...] ("i convenuti di OpenAI hanno riconosciuto che l'uso di opere protette da copyright per addestrare ChatGPT richiede una licenza per quel contenuto e, in alcuni casi, hanno stipulato accordi di licenza con grandi titolari di copyright... Sono anche in trattative di licenza con altri titolari di copyright nel settore delle notizie, ma non hanno offerto alcun risarcimento agli attori"). Che quel tipo di danno soddisfi o meno il requisito del danno di fatto, non è il tipo di danno che è stato "elevato" dalla Sezione 1202(b)(i) del DMCA. Vedere Spokeo, 578 U.S. a 341 (il Congresso può "elevare allo stato di danni legalmente riconoscibili, danni di fatto che erano precedentemente inadeguati per legge"). Resta da vedere se esista un altro statuto o una teoria legale che elevi questo tipo di danno. Ma quella questione non è all'esame della Corte oggi. In caso di archiviazione, gli attori chiedono il permesso di presentare un reclamo modificato. Non posso accertare se l'emendamento sarebbe inutile senza vedere una proposta di modifica dell'atto processuale. Sono scettico sulla capacità degli attori di denunciare un danno riconoscibile ma, almeno per quanto riguarda il provvedimento ingiuntivo, sono disposto a prendere in considerazione una modifica dell'atto processuale.

Conclusioni

Per i motivi sopra esposti, la mozione di archiviazione dei convenuti è ACCOLTA nella sua interezza. La mozione dei querelanti per l'autorizzazione a replicare è NEGATA SENZA PREGIUDIZIO al rinnovo su un verbale appropriato, il che significa presentare un avviso di mozione a cui è allegata una proposta di modifica dell'atto di citazione insieme a una spiegazione del motivo per cui la modifica proposta non sarebbe inutile. Ciò costituisce un parere scritto. [...]

Data: 7 novembre 2024

McMahon (giudice)

______________________________________________

Sintesi a cura di Tori Guidry (Troutman Amin, LLP)

[versione originale]

OpenAI ha ottenuto un'importante vittoria legale quando il giudice McMahon ha respinto ieri le rivendicazioni DMCA di Raw Story Media: "Nessun danno concreto, nessuna legittimazione".

Gli attori Raw Story Media, Inc. e AlterNet Media, Inc., pesi massimi nel settore delle notizie con oltre 400.000 articoli pubblicati, hanno contestato a OpenAI di aver violato il Digital Millennium Copyright Act ("DMCA"), in particolare la Sezione 1202(b)(i). Hanno affermato che ChatGPT di OpenAI ha “ingerito” migliaia dei loro articoli protetti da copyright, privati dei nomi degli autori, dei titoli e delle note di copyright, per addestrare il suo modello linguistico senza autorizzazione.

Ma in una sentenza decisiva, il giudice McMahon della Corte distrettuale degli Stati Uniti per il distretto meridionale di New York ha accolto la mozione di rigetto di OpenAI. La corte ha stabilito che gli attori non avevano legittimazione ai sensi dell'Articolo III perché non sono riusciti a dimostrare alcun danno concreto. Citando la decisione della Corte Suprema sul caso TransUnion LLC c. Ramirez: "Nessun danno concreto, nessuna legittimazione".

La corte ha qui sottolineato che la mera rimozione delle Informazioni sulla gestione del copyright ("CMI"), senza prove di diffusione o danno concreto, era "troppo astratta" per costituire un danno concreto. "gli attori non hanno denunciato effetti negativi sostanziali derivanti da questa presunta violazione del DMCA".

Altro aspetto molto importante... La corte ha anche affrontato la richiesta degli attori di un provvedimento ingiuntivo, che mirava a costringere OpenAI a rimuovere i propri contenuti dai propri sistemi a causa di un "rischio sostanziale" che ChatGPT potesse riprodurre i propri articoli alla lettera senza i “credits”. Il giudice McMahon ha ritenuto questa argomentazione speculativa:

"gli attori non hanno plausibilmente affermato che vi sia un 'rischio sostanziale' che la versione corrente di ChatGPT generi una risposta che plagi uno degli articoli degli attori".

La corte ha inoltre spiegato:

"Un'affermazione di danno futuro può essere sufficiente se il danno minacciato è 'certamente imminente', ma questa soglia non è stata raggiunta qui".

Il giudice McMahon è andato davvero dritto al punto:

"Siamo chiari su cosa è realmente in gioco qui. Il presunto danno per cui gli attori cercano veramente un risarcimento non è l'esclusione di CMI dai set di formazione dei convenuti, ma piuttosto l'uso da parte dei convenuti degli articoli degli attori per sviluppare ChatGPT senza alcun compenso per gli attori".

In altre parole, gli attori stavano prendendo di mira il bersaglio sbagliato. Il loro vero problema era l'uso non autorizzato senza pagamento, una questione non affrontata dalla Sezione 1202(b)(i) del DMCA.

Sebbene il licenziamento fosse senza pregiudizio, consentendo agli attori una finestra ristretta per modificare la loro denuncia, il giudice McMahon ha espresso scetticismo:

"Non posso accertare se l'emendamento sarebbe inutile senza vedere una proposta di modifica della dichiarazione. Sono scettico sulla capacità degli attori di denunciare un danno riconoscibile".

Se si vuole affrontare un gigante della tecnologia come OpenAI per rivendicazioni di copyright, è meglio arrivare preparati con prove di danni effettivi e concreti. Vaghe voci e rischi speculativi non saranno sufficienti.

E come ha detto il giudice McMahon:

"Resta da vedere se esista un altro statuto o una teoria legale che elevi questo tipo di danno. Ma questa questione non è all'attenzione della Corte oggi".

Davvero un ordine eccellente da parte del giudice McMahon.

SIMONE ALIPRANDI BLOG

Cerca nel blog