A nova versão do modelo de inteligência artificial (IA) da DeepSeek, lançada na semana passada, está sob suspeita. Segundo desenvolvedores e pesquisadores, o modelo R1-0528, que se destaca em benchmarks de matemática e programação, pode ter sido treinado com dados extraídos da família de IAs Gemini, do Google.
A alegação acende o alerta sobre o uso de outputs de modelos rivais para treinar novas inteligências, uma prática chamada de distillation, que vem ganhando atenção no setor.
De acordo com o TechCrunch, o desenvolvedor australiano Sam Paech publicou indícios de que o modelo da DeepSeek exibe padrões de linguagem muito semelhantes aos do Gemini 2.5 Pro. Outra análise, feita pelo criador anônimo da ferramenta SpeechMap, aponta que os “raciocínios intermediários” do R1-0528, as etapas que a IA percorre até chegar a uma resposta, se assemelham bastante aos traços típicos dos modelos do Google.
Leia também: IT Forum celebra as mulheres em destaque na TI; participe
DeepSeek já enfrentou acusações anteriores
Não é a primeira vez que a DeepSeek é apontada como possível usuária indevida de saídas de modelos concorrentes. Em dezembro de 2024, desenvolvedores notaram que o modelo V3 da empresa chinesa frequentemente se identificava como se fosse o ChatGPT, da OpenAI, o que sugeria treinamento com logs de conversa do chatbot.
A prática de distillation em si não é ilegal nem rara no desenvolvimento de IA, mas viola os termos de uso de plataformas como a OpenAI, que proíbe o uso de saídas dos seus modelos para treinar competidores. Segundo a Bloomberg, a Microsoft detectou, no fim de 2024, um grande volume de dados sendo extraído via contas de desenvolvedores da OpenAI supostamente ligadas à DeepSeek, um dos sinais que levou à suspeita.
O problema se agrava por outro fator: a internet está inundada por conteúdo gerado por IA. Isso torna difícil filtrar datasets puros para treinamento. Como destaca o TechCrunch, há um fenômeno crescente de “contaminação” dos dados, com bots publicando conteúdo em massa em plataformas como Reddit e X, e content farms alimentando repositórios com textos produzidos por máquinas.
Mercado reage com novas barreiras
Empresas como OpenAI, Google e Anthropic já estão implementando medidas para proteger seus modelos da distillation. A OpenAI, por exemplo, passou a exigir verificação de identidade com documento oficial para acesso a modelos avançados, restringindo o uso por organizações de países não listados, como a China. Já o Google começou a “resumir” os traces dos modelos oferecidos via AI Studio, dificultando sua reprodução. A Anthropic também anunciou uma medida similar em maio.
Para Nathan Lambert, pesquisador do AI2 (Allen Institute for AI), não seria surpreendente se a DeepSeek tivesse usado saídas do Gemini deliberadamente. “Se eu estivesse na DeepSeek, geraria o máximo de dados sintéticos possível com o melhor modelo de API disponível”, escreveu no X.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!