Skip to main content
Notícias

Anthropic avança na compreensão dos mecanismos internos de modelos de linguagem

By 29 de março de 2025No Comments

Imagem mostrando a tela de um smartphone com o logotipo da Anthropic em destaque, com letras pretas sobre fundo branco. Ao fundo, é visível um teclado de computador desfocado, em tons escuros e iluminação azulada, criando um contraste com a nitidez do logotipo.

A Anthropic, startup de inteligência artificial (IA) fundada por ex-funcionários da OpenAI, anunciou um importante avanço na interpretação do funcionamento interno de modelos de linguagem de grande porte (LLMs, na sigla em inglês). A empresa conseguiu rastrear como essas redes neurais processam conceitos complexos, em um esforço para tornar a IA mais compreensível e segura.

Segundo informações do MIT Technology Review, os pesquisadores da Anthropic conseguiram mapear padrões internos que surgem em modelos de IA de forma mais eficaz do que nunca.

Essas funcionalidade representam conceitos abstratos que o modelo “aprende” durante o treinamento, como a estrutura de um haicai, o formato de uma equação matemática ou até o estilo de um autor específico. A novidade é que a equipe conseguiu identificar mais de 10 milhões dessas features em uma única camada de um dos modelos da empresa.

Esse processo de identificação é parte de uma linha de pesquisa chamada “interpretação mecânica”, que busca entender como redes neurais tomam decisões e manipulam informação internamente.

Leia também: Mara Maehara, a CIO que trocou os palcos pela TI e brilhou nos dois

De acordo com o MIT Technology Review, a técnica utilizada pela Anthropic envolve associar features a neurônios virtuais, permitindo rastrear como elas são ativadas dentro do modelo e como se combinam para gerar respostas.

A iniciativa representa um salto em direção à transparência e à interpretabilidade da IA. Com esse tipo de abordagem, torna-se possível mitigar riscos como alucinações, viés e comportamentos inesperados de modelos de linguagem, além de facilitar auditorias e tornar o uso da IA mais confiável em aplicações críticas.

Colaboração com a Anthropic

A Anthropic planeja abrir parte dessa pesquisa à comunidade científica, permitindo que outros pesquisadores explorem as features identificadas e avancem nos esforços de compreensão da IA generativa. Para isso, será lançado um conjunto de dados com mais de 5 milhões de features anotadas.

Embora ainda seja um campo em estágio inicial, a interpretação mecânica é considerada promissora. Segundo a MIT Technology Review, especialistas acreditam que esse tipo de trabalho pode eventualmente permitir intervenções mais precisas em modelos de linguagem, como remover features associadas a desinformação ou reforçar aquelas que promovem respostas mais seguras.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!