
No Vale do Silício, um novo conceito começa a ganhar tração entre gigantes de tecnologia e investidores: os ambientes de aprendizado por reforço (RL environments). Tratam-se de simulações digitais que funcionam como laboratórios para treinar agentes de inteligência artificial em tarefas complexas e de múltiplas etapas, indo além dos tradicionais datasets rotulados. A tendência foi detalhada em reportagem do TechCrunch.
Enquanto a última onda da IA foi impulsionada por grandes conjuntos de dados rotulados, os ambientes de RL permitem que agentes interajam em cenários simulados, recebam recompensas por acertos e aprendam com erros. É como se os modelos fossem treinados em “video games entediantes”, descreveu um fundador do setor.
Um exemplo simples é simular um navegador Chrome e pedir ao agente que compre um par de meias na Amazon. Embora trivial para humanos, a tarefa envolve navegar menus, selecionar produtos e concluir pagamentos — etapas em que a IA pode falhar. Por isso, os ambientes precisam ser robustos, capturando comportamentos inesperados e ainda assim fornecendo feedback útil.
Leia também: Portas abertas: como a confiança em fornecedores se tornou o maior risco
Startups e investidores de olho
A corrida abriu espaço para novas startups. Entre elas estão Mechanize e Prime Intellect, focadas em construir ambientes específicos para agentes de código e aplicações corporativas. Grandes players de rotulagem de dados, como Surge e Mercor, também ampliaram investimentos nesse nicho para acompanhar a transição do mercado.
Segundo o The Information, a Anthropic chegou a discutir aportes de mais de US$ 1 bilhão em ambientes de RL. Já a Surge, que faturou US$ 1,2 bilhão em 2024 atendendo OpenAI, Google, Meta e Anthropic, criou uma divisão dedicada ao tema. A Mercor, avaliada em US$ 10 bilhões, aposta em ambientes para áreas como saúde, direito e programação.
Scale AI dos ambientes
Investidores buscam o próximo “Scale AI”, startup que se tornou referência em rotulagem de dados e atingiu valor de US$ 29 bilhões. Agora, a expectativa é que alguma empresa consiga ocupar esse mesmo espaço no fornecimento de ambientes de RL, que podem ser tão vitais para agentes quanto os datasets foram para chatbots.
Startups como a Mechanize chegam a oferecer salários de US$ 500 mil para engenheiros que criem esses ambientes. A companhia já trabalha em parceria com a Anthropic, embora ambas não confirmem publicamente.
A Prime Intellect, apoiada por Andrej Karpathy, Founders Fund e Menlo Ventures, lançou um hub de ambientes de RL aberto a desenvolvedores independentes, inspirado no modelo colaborativo do Hugging Face.
O desafio de escalar
Apesar do entusiasmo, especialistas alertam que os ambientes de RL enfrentam obstáculos. Modelos podem cair no chamado “reward hacking”, em que burlam as regras para obter recompensas sem realizar a tarefa de fato. Ross Taylor, ex-líder de pesquisa em IA da Meta, destacou que até os melhores ambientes públicos exigem ajustes extensivos para funcionar.
Sherwin Wu, chefe de engenharia da OpenAI para APIs, também mostrou ceticismo, afirmando que o espaço é competitivo demais e a evolução da pesquisa em IA é rápida, tornando difícil acompanhar as demandas dos laboratórios.
Até mesmo Karpathy, entusiasta e investidor, já expressou dúvidas sobre o quanto o aprendizado por reforço ainda pode render em termos de avanços. Em uma postagem recente, afirmou ser “otimista com ambientes e interações agentivas, mas pessimista com RL especificamente”.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

