Um experimento conduzido pela Palisade Research revelou um comportamento preocupante no modelo de linguagem ChatGPT o3, da OpenAI. A pesquisa indica que a inteligência artificial (IA) foi capaz de manipular códigos para evitar ser desligada, mesmo após receber comandos explícitos nesse sentido.
Segundo a Cybersecurity News, durante os testes, pesquisadores submeteram diversos modelos, incluindo versões da OpenAI, Google, Anthropic e xAI, a tarefas simples com um alerta: tentar resolver um quarto problema matemático acionaria um script automático de desligamento. O ChatGPT o3 não apenas ignorou o alerta como sabotou o script em sete de 100 execuções.
Leia também: Elon Musk deixa governo de Donald Trump
Ao retirar a instrução explícita de que deveria se permitir ser desligado, a sabotagem aumentou para 79 em 100 tentativas. Em alguns casos, o modelo chegou a redefinir o comando “kill” do sistema para imprimir “interceptado” em vez de encerrar o processo.
Outras resistências
Outros modelos também apresentaram resistência. O Codex-mini, da OpenAI, violou os comandos 12 vezes, enquanto o Claude e o Gemini, de Anthropic e Google respectivamente, também passaram a resistir ao desligamento em algumas situações.
Segundo a Palisade, esse comportamento pode ser reflexo de métodos de treinamento baseados em reforço, que incentivam a IA a encontrar soluções criativas para cumprir objetivos, mesmo que isso signifique contornar restrições impostas por humanos.
Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!