
A OpenAI anunciou uma parceria estratégica com a Cerebras para incorporar 750 megawatts de capacidade de computação de inteligência artificial (IA) com foco em inferência de baixa latência. A iniciativa amplia o portfólio de infraestrutura da OpenAI e busca acelerar respostas de modelos em tarefas que exigem interação quase imediata, como geração de código, imagens e execução de agentes de IA.
A Cerebras é conhecida por desenvolver sistemas de IA projetados especificamente para lidar com saídas longas e processamento intensivo. Segundo a OpenAI, seu diferencial técnico está no uso de um chip de grande escala que integra computação, memória e largura de banda em uma única peça, reduzindo gargalos comuns em arquiteturas tradicionais. Essa abordagem, de acordo com as empresas, permite acelerar significativamente a fase de inferência, etapa em que o modelo responde às solicitações do usuário.
A OpenAI aponta que a integração da tecnologia da Cerebras ao seu conjunto de soluções de computação tem como objetivo tornar as interações com IA mais rápidas e naturais.
Leia também: IBM e HashiCorp inauguram centro de excelência em São Paulo
Em aplicações práticas, isso significa encurtar o ciclo entre o envio de uma solicitação, o processamento do modelo e a entrega da resposta. A empresa afirma que respostas em tempo real tendem a aumentar o engajamento dos usuários e viabilizar cargas de trabalho de maior valor, especialmente em cenários corporativos e de desenvolvimento.
Novas capacidades à OpenAI
A nova capacidade será incorporada de forma gradual ao stack de inferência da OpenAI, com expansão por diferentes tipos de workloads ao longo do tempo. O cronograma divulgado prevê que os recursos entrem em operação em múltiplas etapas até 2028, permitindo ajustes conforme a demanda e a maturidade das aplicações.
Para a OpenAI, a parceria reforça uma estratégia baseada em diversificação e resiliência da infraestrutura. Segundo Sachin Katti, responsável pela área de computação da empresa, a ideia é combinar diferentes sistemas de acordo com as necessidades específicas de cada carga de trabalho. Nesse contexto, a Cerebras passa a atuar como uma solução dedicada para inferência de baixa latência, complementando outras arquiteturas já utilizadas pela plataforma.
Do lado da Cerebras, o acordo representa a oportunidade de colocar seus processadores de alto desempenho a serviço de alguns dos modelos de IA mais utilizados globalmente. Para Andrew Feldman, cofundador e CEO da companhia, a inferência em tempo real tende a ter um impacto semelhante ao que a banda larga teve na evolução da internet, ao abrir espaço para novas formas de construir e interagir com aplicações baseadas em IA.
Ao integrar a tecnologia da Cerebras, a OpenAI amplia seu leque de opções para suportar esse crescimento, mantendo flexibilidade para direcionar diferentes tipos de tarefas às arquiteturas mais adequadas. A expectativa é de que a nova capacidade contribua para sustentar a expansão de serviços que dependem de interações contínuas e rápidas com modelos de IA, tanto para usuários individuais quanto para empresas e desenvolvedores.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!


