CEO da Anthropic quer “escanear o cérebro” dos modelos de IA até 2027

Imagem mostrando a tela de um smartphone com o logotipo da Anthropic em destaque, com letras pretas sobre fundo branco. Ao fundo, é visível um teclado de computador desfocado, em tons escuros e iluminação azulada, criando um contraste com a nitidez do logotipo.

Dario Amodei, CEO da Anthropic, defendeu publicamente um objetivo ousado. Até 2027, sua empresa pretende ser capaz de detectar a maioria dos problemas em modelos de IA avançados, abrindo caminho para uma compreensão mais profunda de como essas tecnologias tomam decisões.

A proposta aparece em um ensaio publicado nesta quinta-feira (24), intitulado The Urgency of Interpretability, no qual Amodei alerta sobre os riscos de se implantar sistemas autônomos sem entender como eles operam.

Segundo o CEO, mesmo com os avanços recentes, a indústria ainda tem pouca clareza sobre os mecanismos internos desses modelos. Ele destaca que, enquanto modelos como o o3 e o o4-mini da OpenAI mostram melhor desempenho em algumas tarefas, também apresentam mais alucinações, e ninguém sabe ao certo o motivo. Amodei considera isso inaceitável diante do impacto potencial dessas tecnologias na economia, segurança nacional e sociedade em geral.

Interpretabilidade mecanicista

A Anthropic tem se destacado pela aposta na chamada “interpretabilidade mecanicista”, um ramo da pesquisa em IA que busca desvendar, camada por camada, como os modelos chegam às suas conclusões.

Entre os avanços da empresa, está a identificação de circuitos responsáveis por tarefas específicas, como compreender relações geográficas entre cidades e estados dos EUA. No entanto, esses circuitos ainda são poucos perto dos milhões estimados.

O plano de longo prazo da Anthropic, segundo o TechCrunch, é realizar verdadeiros “scans cerebrais” de modelos de IA, analogia com exames de imagem como ressonâncias magnéticas, para mapear padrões de comportamento, como tendências à mentira ou busca de poder. Esse tipo de diagnóstico seria um requisito para lançar sistemas futuros, e pode levar de cinco a dez anos para se tornar realidade.

Amodei também sugeriu medidas para estimular a pesquisa em interpretabilidade, incluindo regulações leves que exijam maior transparência por parte das empresas quanto às práticas de segurança de seus modelos. Ele pediu ainda que governos imponham controles de exportação de chips para a China, como forma de evitar uma corrida global descontrolada por IA avançada.

Diferentemente de empresas como OpenAI e Google DeepMind, que priorizam performance e escala, a Anthropic diz focar em segurança e ética. A companhia, por exemplo, apoiou com ressalvas o projeto de lei SB 1047 na Califórnia, nos Estados Unidos, que propunha padrões de reporte de segurança para desenvolvedores de IA de fronteira.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

CEO da Anthropic quer “escanear o cérebro” dos modelos de IA até 2027

Interpretabilidade mecanicista

Previous PostMeta enfrenta pressão para mostrar resultados com investimentos em IA

Next PostIBM anuncia investimento de US$ 150 bilhões para impulsionar tecnologia e fabricação nos EUA