Skip to main content

Imagem de um laptop com a tela mostrando a interface da DeepSeek. O título 'DeepSeek' aparece em destaque com o subtítulo 'Into the unknown' logo abaixo, em um fundo branco com tons suaves de azul. Há botões na interface com as opções 'Start Now' e 'Get DeepSeek App', incentivando o uso gratuito e o download do aplicativo. O ambiente ao redor está escuro, criando contraste com a tela iluminada (Europa)

A nova versão do modelo de inteligência artificial (IA) da DeepSeek, lançada na semana passada, está sob suspeita. Segundo desenvolvedores e pesquisadores, o modelo R1-0528, que se destaca em benchmarks de matemática e programação, pode ter sido treinado com dados extraídos da família de IAs Gemini, do Google.

A alegação acende o alerta sobre o uso de outputs de modelos rivais para treinar novas inteligências, uma prática chamada de distillation, que vem ganhando atenção no setor.

De acordo com o TechCrunch, o desenvolvedor australiano Sam Paech publicou indícios de que o modelo da DeepSeek exibe padrões de linguagem muito semelhantes aos do Gemini 2.5 Pro. Outra análise, feita pelo criador anônimo da ferramenta SpeechMap, aponta que os “raciocínios intermediários” do R1-0528, as etapas que a IA percorre até chegar a uma resposta, se assemelham bastante aos traços típicos dos modelos do Google.

Leia também: IT Forum celebra as mulheres em destaque na TI; participe

DeepSeek já enfrentou acusações anteriores

Não é a primeira vez que a DeepSeek é apontada como possível usuária indevida de saídas de modelos concorrentes. Em dezembro de 2024, desenvolvedores notaram que o modelo V3 da empresa chinesa frequentemente se identificava como se fosse o ChatGPT, da OpenAI, o que sugeria treinamento com logs de conversa do chatbot.

A prática de distillation em si não é ilegal nem rara no desenvolvimento de IA, mas viola os termos de uso de plataformas como a OpenAI, que proíbe o uso de saídas dos seus modelos para treinar competidores. Segundo a Bloomberg, a Microsoft detectou, no fim de 2024, um grande volume de dados sendo extraído via contas de desenvolvedores da OpenAI supostamente ligadas à DeepSeek, um dos sinais que levou à suspeita.

O problema se agrava por outro fator: a internet está inundada por conteúdo gerado por IA. Isso torna difícil filtrar datasets puros para treinamento. Como destaca o TechCrunch, há um fenômeno crescente de “contaminação” dos dados, com bots publicando conteúdo em massa em plataformas como Reddit e X, e content farms alimentando repositórios com textos produzidos por máquinas.

Mercado reage com novas barreiras

Empresas como OpenAI, Google e Anthropic já estão implementando medidas para proteger seus modelos da distillation. A OpenAI, por exemplo, passou a exigir verificação de identidade com documento oficial para acesso a modelos avançados, restringindo o uso por organizações de países não listados, como a China. Já o Google começou a “resumir” os traces dos modelos oferecidos via AI Studio, dificultando sua reprodução. A Anthropic também anunciou uma medida similar em maio.

Para Nathan Lambert, pesquisador do AI2 (Allen Institute for AI), não seria surpreendente se a DeepSeek tivesse usado saídas do Gemini deliberadamente. “Se eu estivesse na DeepSeek, geraria o máximo de dados sintéticos possível com o melhor modelo de API disponível”, escreveu no X.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!