
A chinesa DeepSeek apresentou nesta segunda-feira (29) o V3.2-exp, modelo experimental de inteligência artificial que adota a técnica Sparse Attention, capaz de cortar pela metade os custos de inferência em operações de longo contexto. O anúncio foi feito na plataforma Hugging Face, acompanhado de artigo científico publicado no GitHub, segundo o TechCrunch.
O sistema combina dois módulos: o “lightning indexer”, que seleciona trechos relevantes da janela de contexto, e o “fine-grained token selection system”, que filtra tokens específicos dentro desses trechos. Essa estratégia permite ao modelo lidar com grandes volumes de informação sem sobrecarregar servidores.
Testes preliminares indicam que o custo de uma chamada simples de API pode cair até 50% em cenários de contexto extenso. Como o modelo é de código aberto, pesquisadores independentes poderão validar os resultados em breve.
Leia também: Digibee vive momento de virada na era dos agentes de IA
Contexto do avanço
A busca por eficiência no uso de modelos pré-treinados tem crescido, já que os custos de inferência, diferentes do custo de treinamento, se tornaram barreira para a escalabilidade de serviços de IA. O trabalho da DeepSeek mostra que ainda há espaço para otimizar a arquitetura transformer.
Fundada na China, a empresa ganhou notoriedade no início do ano com o modelo R1, treinado com uso intensivo de reinforcement learning a custos bem menores que concorrentes americanos. Embora não tenha causado a revolução esperada, a iniciativa posicionou a companhia como peça singular na corrida global da IA.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

