Em um movimento histórico que coloca em cheque os limites entre tecnologia e direitos autorais, o jornal The New York Times iniciou uma ação judicial contra a OpenAI e a Microsoft. Aberto na última quarta-feira (27), o processo alega o uso indevido de conteúdo jornalístico para treinar modelos avançados de IA como o GPT-4, levantando questões críticas sobre ética e propriedade intelectual no setor tecnológico.
A queixa está em análise no Tribunal Federal dos EUA em Manhattan, e representa um marco na interação entre grandes meios de comunicação e a inovação em inteligência artificial.
Conflito sobre uso do conteúdo jornalístico e inteligência artificial generativa
O jornal acusa as empresas de usar seu conteúdo extensivamente sem autorização para treinar IAs, principalmente o ChatGPT, violando seus direitos autorais.
Os documentos judiciais indicam que o domínio www.nytimes.com é uma das principais fontes do Common Crawl, vital para desenvolver tecnologias como o GPT-4 da OpenAI, alegadamente com 1,8 trilhão de parâmetros, treinado com um volume massivo de dados.
“O domínio www.nytimes.com é a fonte proprietária mais representada (e a terceira no geral, atrás apenas da Wikipedia e de uma base de dados de documentos de patentes dos EUA) em um subconjunto filtrado de língua inglesa de um registro de 2019 do Common Crawl, contabilizando 100 milhões de tokens […] O conjunto de dados do Common Crawl inclui pelo menos 16 milhões de registros únicos de conteúdo do The Times em Notícias, Culinária, Wirecutter e The Athletic, e mais de 66 milhões de registros totais de conteúdo do The Times”.
Os CEOs da Microsoft e da OpenAI Satya Nadella e Sam Altman (Foto: reprodução/LinkedIn/Satya Nadella)
A questão jurídica reflete também o impacto econômico da IA para empresas como OpenAI e Microsoft, que lucraram bilhões com produtos como Bing e Copilot da Microsoft, e ChatGPT Enterprise da OpenAI em 2023: “Cada Réu se beneficiou substancialmente de sua conduta ilícita de várias maneiras. […] A OpenAI estava a caminho de gerar mais de US$ 1 bilhão em receita nos próximos doze meses, ou US$ 80 milhões por mês. […] A integração do GPT-4 no Bing aumentou o uso do motor de busca e as receitas publicitárias associadas”. Em contrapartida, o NYT não foi compensado pelo uso de seu conteúdo.
Implicações financeiras e crise interna na OpenAI
A disputa legal ocorre em um momento crítico para a OpenAI, marcado por uma crise de governança e a demissão e reintegração do CEO Sam Altman. A empresa, com receitas projetadas na casa dos bilhões devido a tecnologias como ChatGPT, enfrenta desafios que ultrapassam o financeiro, adentrando em questões éticas e legais.
Por parte do NYT, o processo busca compensações financeiras não especificadas, possivelmente bilionárias, e a destruição de quaisquer modelos de IA que utilizem seu conteúdo: “A conduta ilícita dos Réus também causou, e continuará a causar, danos substanciais ao Times. O Times investe significativamente na criação de conteúdo para informar seus leitores, que compram assinaturas ou interagem com os sites e aplicações móveis do Times, gerando receita”.
O caso ressalta preocupações sobre desinformação e atribuição errônea de conteúdo ao NYT pelas IA, destacando desafios éticos na criação de tecnologias que respeitem direitos autorais e integridade jornalística.
Processo é um marco nos direitos autorais e no uso de IA
Esta ação judicial segue outras iniciativas, como uma ação coletiva em novembro, liderada pelo autor Julian Sancton, contra OpenAI e Microsoft, por supostamente utilizar obras de autores para treinar suas IA.
A postura do NYT difere de outros grupos de mídia, como Axel Springer e Associated Press, que firmaram acordos de conteúdo com a OpenAI. A ação pode estabelecer precedentes significativos para o futuro das interações entre IA e direitos autorais, impactando não só empresas de tecnologia, mas também meios de comunicação e usos sociais da tecnologia.
Foto Destaque: Fachada da sede do jornal New York Times em Manhatan (Reprodução/X/@nowthisnews)