Skip to main content

Corredor de um data center futurista, com fileiras de servidores iluminados em tons de azul e verde nas laterais. No centro da imagem, destaca-se um chip digital brilhante com a sigla “IA”, cercado por padrões eletrônicos e códigos binários, representando infraestrutura tecnológica e computação avançada. Escócia, inferência

Realizar inferências em um grande modelo de linguagem (LLM) com um trilhão de parâmetros terá redução de custos de mais de 90% até 2030, na comparação com os preços praticados em 2025, para os provedores de IA generativa. Segundo o Gartner, isso se deve tanto aos novos hardwares produzidos para esse fim quanto à eficiência dos novos modelos.

“Essas melhorias de custo serão impulsionadas por uma combinação de avanços na eficiência de semicondutores e infraestrutura, inovações no design de modelos, maior utilização dos chips, aumento do uso de silício especializado para inferência e aplicação de dispositivos de borda (edge) para casos de uso específicos”, explica em comunicado Will Sommer, diretor analista sênior do Gartner.

O Gartner prevê que os LLMs em 2030 serão até 100 vezes mais eficientes em termos de custo do que os primeiros modelos de tamanho similar desenvolvidos em 2022. Os ganhos elevados consideram um cenário em que todo o processamento dos modelos ocorre usando chips de ponta, diferente de um cenário de “combinação legada”, ou seja, que utiliza tanto hardware mais moderno quanto antigo.

Leia também: IA nas empresas: Sandy Carter explica como sair do “purgatório de pilotos”

O que parece uma boa notícia, no entanto, pode não ser tanto assim. Essa queda nos custos por tokens dos provedores de IA generativa não será totalmente repassada aos clientes corporativos, diz o Gartner, porque a tecnologia exigirá “significativamente mais” tokens do que as aplicações convencionais atuais.

Modelos agênticos, por exemplo, exigem de 5 a 30 vezes mais tokens por tarefa do que um chatbot padrão, e podem executar muito mais tarefas do que um humano usando IA generativa. Além disso, as melhorias impulsionarão uma demanda “desproporcionalmente maior por tokens”.

“Os Chief Product Officers (CPOs) não devem confundir a deflação de tokens básicos com a democratização do raciocínio de ponta”, diz Sommer. “À medida que a inteligência comoditizada se aproxima de um custo próximo de zero, a capacidade computacional e os sistemas necessários para suportar o raciocínio avançado permanecem escassos.”

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!