
Um novo estudo do Oxford Internet Institute (OII) coloca em xeque a credibilidade dos testes usados para medir o desempenho de sistemas de inteligência artificial. A pesquisa, realizada em parceria com mais de 30 instituições e publicada na terça-feira (5), analisou 445 benchmarks, os principais testes que servem de base para avaliar a performance de modelos de IA, e concluiu que muitos deles exageram as reais capacidades das máquinas e carecem de rigor científico.
Esses benchmarks são usados por desenvolvedores e pesquisadores para medir avanços técnicos e divulgar conquistas, desde habilidades de programação até raciocínio abstrato. No entanto, o estudo afirma que grande parte desses testes falha em definir com clareza o que pretende medir, reaproveita bases de dados antigas e raramente aplica métodos estatísticos confiáveis para comparar resultados entre modelos.
De acordo com Adam Mahdi, pesquisador sênior do OII e um dos autores principais, muitos testes acabam medindo conceitos diferentes daqueles que dizem avaliar. “Quando pedimos a um modelo de IA para executar uma tarefa, muitas vezes estamos, na prática, medindo algo completamente distinto do que acreditamos estar medindo”, afirmou à NBC News.
Andrew Bean, também coautor do estudo, reforça que até benchmarks amplamente reconhecidos são usados sem a devida cautela. “Devemos desconfiar quando ouvimos afirmações de que um modelo atingiu ‘nível de inteligência de Ph.D.’. Não temos certeza de que essas medições sejam realmente bem-feitas”, disse.
Falta de validade e clareza
Os pesquisadores chamam a atenção para a falta do que denominam “validade de construto”, isto é, a capacidade de um teste realmente medir o fenômeno que se propõe a avaliar. Em muitos casos, os benchmarks reúnem tarefas desconexas sem explicar como elas representam as habilidades que se deseja medir.
Leia mais: Meetkai Brasil lança IA soberana que “raciocina em português”
Um exemplo citado no estudo é o GSM8K, teste amplamente usado para medir raciocínio matemático em modelos de linguagem. Embora os resultados sejam frequentemente interpretados como evidência de competência em matemática, os autores afirmam que isso pode ser um erro de interpretação. “Se uma criança responde corretamente a uma soma simples, não significa que dominou o raciocínio matemático”, observou Mahdi.
Recomendações para melhorar os testes
O estudo propõe oito recomendações para tornar as medições mais precisas e transparentes, entre elas:
- Definir claramente o escopo e o objetivo de cada benchmark;
- Criar conjuntos de tarefas que representem melhor as habilidades avaliadas;
- E, adotar análises estatísticas rigorosas para comparar desempenhos entre modelos.
Nikola Jurkovic, pesquisador do centro METR AI, elogiou as conclusões do trabalho. “Precisamos de mais rigor para interpretar resultados de benchmarks. Essa lista de verificação é um bom ponto de partida para garantir que as medições façam sentido”, afirmou.
O artigo se soma a um movimento crescente dentro da comunidade científica para revisar os métodos de avaliação de IA. Pesquisadores da Anthropic já haviam defendido, em 2024, o uso de testes estatísticos mais robustos para evitar conclusões equivocadas sobre avanços de modelos.
Nos últimos meses, novas abordagens vêm surgindo. A OpenAI, por exemplo, lançou uma série de avaliações que testam o desempenho da IA em tarefas reais de 44 profissões, como corrigir planilhas de vendas ou montar cronogramas de gravação de vídeos. Já o Center for AI Safety, dirigido por Dan Hendrycks, criou benchmarks voltados à automação de trabalhos remotos, buscando medir habilidades com aplicação econômica concreta.
Apesar das críticas, os pesquisadores de Oxford enfatizam que o campo ainda está em construção. “Estamos apenas no início da avaliação científica de sistemas de IA”, concluiu Mahdi.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

