NYT contra OpenAI: a nova batalha na guerra entre Techs Big e a imprensa

5 min readJan 8, 2024

Ao iniciar, no final de dezembro, um processo por quebra de direitos autorais, o jornal norte-americano The New York Times (NYT) tenta a via legal para arrancar dinheiro das empresas Open AI e Microsoft como também abrir um precedente na complexa guerra entre a imprensa e empresas produtoras de tecnologia voltada para a Inteligência Artificial (IA).

É um confronto complicado porque estão em jogo duas estratégias corporativas diferentes, ambas preocupadas com a lucratividade dos respectivos modelos de negócios (1). A batalha entre o NYT e a OpenAi, ligada à Microsoft, marca um novo episódio da corrida das empresas de alta tecnologia em busca de informações arquivadas em bancos de dados digitalizados e que se encontram, em sua maioria, sob controle de empresas estruturalmente analógicas. A Inteligência Artificial depende da existência de bancos de dados volumosos porque se baseia na busca de informações por meio de algoritmos (robôs eletrônicos) pré-programados.

Foram justamente os algoritmos de inteligência artificial usados pela OpenAI/Microsoft que bisbilhotaram o banco de dados do NYT sem pagar nada, numa operação classificada como de treinamento de buscas. O jornal já tinha chegado a acordos de aluguel de seu banco de dados com as empresas Meta (Facebook), Google e Apple, mas a falta de diálogo com a OpenAI acabou levando a questão para os tribunais norte-americanos.

Veja abaixo uma comparação entre textos publicados originalmente pelo NYT e reproduzidos posteriormente pelo GPT:

(Printscreen publicado por Jason Kint no X (ex Twitter, comparando textos do NYT e do GPT)

A disputa pelo ‘necrotério’

O banco de dados de informações digitalizadas do NYT, também conhecido como Morgue (necrotério em inglês) contem 13 milhões de textos e oito milhões de fotos, gráficos e desenhos, todos produzidos a partir de 18 de setembro 1851, data de fundação do jornal. A maior parte do banco de dados está hospedado na nuvem digital da empresa Alphabet, dona do Google. Não há informação oficial sobre o custo da digitalização de todo o arquivo de edições impressas, mas há estimativas de que o total pode ter chegado a 40 milhões de dólares.

O acúmulo de estatísticas, números, cifras, fatos, ilustrações e notícias ao longo de décadas fizeram que a formação de bancos de dados ficasse reduzida a um número muito reduzido de empresas jornalísticas. As que digitalizaram seus arquivos achavam que iriam recuperar o milionário investimento feito vendendo informações, mas acabaram descobrindo, agora uma mina de ouro na inteligência artificial. Os bancos de dados de empresas jornalísticas estão o centro da batalha com as Big Techs porque eles contêm dados, fatos e eventos contextualizados, o que facilita a tarefa dos algoritmos da inteligência artificial.

Por seu lado, as grandes plataformas digitais que controlam redes sociais manejam diariamente uma quantidade de dados infinitamente maior do que a de uma edição diária de um grande jornal. Mas as plataformas têm menos de 20 anos, logo seu arquivo é muito recente comparado com o de jornais com mais de um século de existência, o que gera uma situação paradoxal de dependência mútua, apesar da disputa financeira. A inteligência artificial não prospera sem os bancos de dados jornalísticos e a imprensa, sem a IA não perde a corrida no processo de ‘datificação’ (2) na produção de notícias.

A inteligência artificial é atualmente um território desregulamentado, o que sempre acontece no início da implantação de qualquer inovação tecnológica, criando condições para abusos e ações inescrupulosas. As empresas de tecnologia digital já esqueceram o idealismo inicial quando prometiam um mundo melhor e agora põem o lucro acima de tudo como qualquer grande multinacional. Basta ver como as redes sociais toleram as notícias falsas e a desinformação para garantir um faturamento crescente.

Colonialismo de dados

Não é a primeira vez que grandes empresas resistem às inovações tecnológicas na área da comunicação. No radio isto aconteceu há 90 anos, como mostra o trabalho America’s Press-Radio War of the 1930s, de Gwenyth Jackaway, da Fordham University, publicado em 1994 (3). Os grandes jornais da época tentaram, durante 10 anos, impedir a transmissão radiofônica de notícias, temendo perder receitas publicitarias. O mesmo bloqueio de uma inovação aconteceu na década de 40 do século passado quando a empresa RCA retardou durante quase uma década a introdução da FM (Frequência Modulada)em suas transmissões radiofônicas para preservar a lucratividade da programação em AM (Modulação ampliada), surgida no inicio do século XX.

Tudo indica que, como no passado, a batalha entre big techs e imprensa deve terminar empatada porque as partes envolvidas vão acabar descobrindo que é preferível ‘perder os anéis para salvar os dedos’. O processo do NYT é uma jogada para ganhar posições de força quando o acordo de convivência se tornar inevitável. As principais armas da imprensa serão o conservadorismo e lentidão da justiça e do poder legislativo. Já as big techs se aproveitarão do desconhecimento e falta de intimidade de seus desafetos no manejo de ferramentas tecnológicas para avançar a exploração de novos aplicativos baseados na inteligência artificial.

Mas há um problema grave que não é tocado pelos grandes conglomerados da comunicação e nem pelas cinco maiores empresas de tecnologia digital (Meta, Alphabet, Apple, Microsoft e Twitter). Os dados que estão no centro da briga em torno da inteligência artificial na verdade não são de nenhuma das partes envolvidas e se a questão dos direitos fosse respeitada, teriam um dono original. Os dados em questão foram extraídos de nossas conversas, pesquisas, transações comerciais, textos, imagens e sons, sem que nós recebêssemos o pagamento dos mesmos direitos autorais que agora são disputados pela imprensa e pelas big techs. Esta apropriação já foi batizada de “colonialismo de dados”. (4)

(1) Mais detalhes sobre o processo do NYT em https://ankurraina.medium.com/new-york-times-vs-microsoft-openai-quick-d-ac7bd579bb50

(2) Datificação é o processo de produção de notícias jornalísticas a partir da interpretação e processamento de dados digitalizados. (Mais detalhes em /(Datification of Journalism: Strategies for data Driven Storytelling and Industry)

(3) Ver Jackaway, Gwenyth. (1994). <i>America’s press-radio war of the 1930s: a case study in battles between old and new media</i>. Historical Journal of Film, Radio and Television, 14(3), 299–314. doi:10.1080/01439689400260211

Colonialismo de dados é uma expressão criada pelo sociólogo britânico Nick Couldry. Ver em https://www.sup.org/books/title/?id=28816

NYT contra OpenAI: a nova batalha na guerra entre Techs Big e a imprensa

Written by Carlos Castilho

No responses yet