Openai suspeita que os modelos Deepseek AI da China, significativamente mais baratos que os colegas ocidentais, podem ter sido treinados usando os dados do OpenAI. Essa revelação, juntamente com o rápido aumento da popularidade da Deepseek, desencadeou uma desaceleração significativa do mercado para os principais players de IA. A NVIDIA, fornecedora de GPU importante, experimentou sua maior perda de ações de todos os tempos, enquanto a Microsoft, Meta, Alphabet e Dell também viu gotas substanciais.
O modelo R1 da Deepseek, baseado no Deepseek-V3 de código aberto, possui custos de treinamento significativamente mais baixos (estimados em US $ 6 milhões) e necessidades computacionais em comparação com os modelos ocidentais. Embora essa alegação seja debatida, ela alimentou preocupações sobre os enormes investimentos que as empresas ocidentais estão fazendo na IA.
O OpenAI e a Microsoft estão investigando se Deepseek violou os termos de serviço da OpenAI usando uma técnica chamada "destilação" - extraindo dados de modelos maiores para treinar os menores. O OpenAI confirma que as empresas chinesas e outras, tentam continuamente replicar os principais modelos de IA dos EUA. Eles estão implementando ativamente contramedidas e colaborando com o governo dos EUA para proteger sua propriedade intelectual.
David Sacks, Czar do AI do presidente Trump, apóia a alegação de que a Deepseek usou os modelos do Openai, destacando a necessidade de medidas preventivas pelas principais empresas de IA.
Esta situação destaca a ironia da posição do OpenAI, dadas suas próprias acusações anteriores de usar material protegido por direitos autorais sem permissão para treinar o ChatGPT. O Openai argumentou anteriormente à Casa dos Lordes do Reino Unido que treinar grandes modelos de idiomas sem material protegido por direitos autorais é impossível. Essa postura é ainda mais complicada pelos processos existentes do New York Times e 17 autores alegando violação de direitos autorais. O OpenAI sustenta que suas práticas de treinamento constituem "uso justo". As batalhas legais em torno dos dados de treinamento e direitos autorais continuam a se desenrolar, com a decisão de agosto de 2023 de que a arte gerada pela IA não pode ser protegida por direitos autorais adicionando outra camada de complexidade.