
No ano passado, as alucinações produzidas pela inteligência artificial generativa (GenAI) ganharam destaque em tribunais e na imprensa em geral. A Bloomberg News noticiou que Goldman Sachs Group Inc., Citigroup Inc., JPMorgan Case &CO. e outras empresas de Wall Street estão alertando investidores sobre novos riscos decorrentes do uso crescente de inteligência artificial, incluindo alucinações de software, questões de moral dos funcionários, uso por cibercriminosos e o impacto de mudanças regulatórias em nível global.
As alucinações da GenAI são, de fato, problemáticas. Por exemplo, pesquisadores da Universidade de Stanford constataram no ano passado que ferramentas de GenAI de uso geral, como o ChatGPT, apresentam uma taxa de erro que pode chegar a 82% quando utilizadas para fins jurídicos. Ferramentas de GenAI desenvolvidas especificamente para aplicações legais apresentam desempenho melhor, mas ainda sim produzem alucinações em 17% dos casos, segundo estudo de Stanford.
Independente da taxa de alucinação, o problema é agravado, em qualquer setor, pelo fato humano que consome a saída da GenAI: muitas vezes, o usuário não percebe a alucinação ou não se preocupa em validar o resultado, passando a agir diretamente com base nele.
Leia também: Data centers orbitais prometem resolver crise energética da IA
Por que os modelos de GenAI alucinam?
Entre os fatores que podem levar às alucinações da GenAI, estão:
-
O tipo, qualidade, a quantidade e a abrangência dos dados utilizados no pré-treinamento são determinantes. A maioria dos grandes modelos de linguagem (LLMs) são “modelos universais”, carregados de dados e fatos irrelevantes para os problemas específicos em que o LLM será aplicado.
-
Cobertura insuficiente de dados de pré-treinamento para tokens e temas-chave solicitados. A tecnologia de LLM representa palavras e grupos de palavras como tokens e utiliza sequências desses tokens e estatísticas associadas para gerar respostas. Quando não há cobertura estatística suficiente, o LLM pode fazer inferências com base em ruído, e não em sinais claros sustentados por estatísticas robustas do treinamento.
-
Falta de autocontenção no processo inferencial do LLM, ao não impedir o uso de exemplos com baixa cobertura de dados de pré-treinamento nas respostas. Esse problema decorre do fato de que a maioria dos LLMs não avalia se há base estatística suficiente para formular suas respostas, assumindo automaticamente que elas são estatisticamente válidas. Em geral, os LLMs não verificam quando a cobertura é insuficiente para sustentar adequadamente uma resposta.
-
Falta de entendimento de que a geração de argumentos com recuperação de registros (RAG) pode aumentar a taxa de alucinações ao enviesar as estatísticas de tokens já aprendidas pelo modelo fundamental durante o pré-treinamento original. O RAG pode tornar essas estatísticas localmente pouco confiáveis de forma artificial, aumentando alucinações e vieses.
A detecção de alucinações é difícil porque os algoritmos de LLM não são interpretáveis e não oferecem visibilidade para justificar suas respostas. Mesmo quando um contexto de RAG supostamente é referenciado na resposta, isso pode não ter ocorrido de fato. Sem conhecer a resposta correta, confiar de forma aleatória em estatísticas ruins ou enviesadas de LLMs para obter uma possível resposta, representa um risco elevado.
Como reduzir as alucinações de GenAI?
Muitas organizações já estão tentando customizar LLMs pré-treinados para seus objetivos por meio de técnicas de ajuste fino, como Low-Rank Adaptation (LoRA). Para reduzir alucinações, é necessário especificar claramente os dados de domínio e de tarefa utilizados na construção dos modelos de linguagem, garantindo que eles sejam treinados com dados relevantes para o caso de uso.
Também há a necessidade de modelos adicionais para monitorar e minimizar os danos causados por alucinações. As políticas corporativas devem priorizar processos claros sobre como as saídas dessas ferramentas serão utilizadas no contexto de negócios, adotando uma estratégia baseada em risco para decidir quando utilizar ou não os resultados e como definir a tolerância ao risco conforme o caso de uso.
Pontuações de confiança GenAItrust são projetadas para indicar a probabilidade de que prompts e respostas estejam alinhados a resultados validados. Pontuações mais altas representam menor risco de alucinações, enquanto pontuações mais baixas indicam maior risco. Esse indicador permite definir níveis de tolerância ao risco e controlar o impacto das alucinações sobre o negócio, mantendo os benefícios do uso de técnicas de inteligência artificial generativa.
Usando modelos de linguagem focados para combater alucinações
A melhor abordagem para utilizar GenAI de forma responsável em serviços financeiros começa com o conceito de modelos de linguagem focados (FLMs). Os FLMs são modelos de linguagem pequenos (SLMs), construídos a partir de conjuntos de dados de treinamento cuidadosamente projetados, tanto no nível de domínio quanto no nível de tarefa. Em outras palavras, utilizam dados diretamente relacionados ao contexto em que o modelo final será aplicado, com decisões de gestão de risco em serviços financeiros.
Esse enfoque resulta em maior precisão, maior confiança nas saídas e maior eficiência em produção, já que modelos menores apresentam menor latência de inferência e menor custo.
O FLM é um novo conceito que recoloca a ciência de dados no centro da GenAI, de forma alinhada aos princípios de IA responsável. Um alto nível de especificidade garante que dados de alta qualidade e alta relevância sejam selecionados. Posteriormente, o modelo pode passar por um ajuste adicional por tarefa (task tuning), garantindo que esteja corretamente direcionado ao objetivo de negócio específico e que suas saídas sejam efetivamente incorporadas aos processos empresariais.
A abordagem de FLM se diferencia de forma clara dos LLMs e SLMs disponíveis comercialmente, que não oferecem controle sobre os dados utilizados na construção do modelo. Para as empresas, o domínio sobre os dados de pré-treinamento e de treinamento por tarefa é fundamental para reduzir alucinações e mitigar riscos. Esse controle é o primeiro passo para o uso responsável de modelos baseados em transformadores.
Um modelo de linguagem focado permite o uso responsável de GenAI porque:
-
Garante transparência e controle sobre os dados apropriados e de alta qualidade que fundamentam um modelo de linguagem focado em um domínio específico.
-
Permite a criação de modelos focados em tarefas específicas a partir de modelos orientados por domínio da indústria, com vocabulário restrito e contexto de treinamento alinhado ao objetivo de negócio.
-
Graças à transparência e ao controle dos dados, o FLM pode ser acompanhado de uma pontuação de confiança a cada resposta, viabilizando a operacionalização da GenAI com base em risco.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

