Skip to main content

A imagem mostra o logotipo da OpenAI em grande destaque, fixado em uma parede de vidro refletivo. O logotipo é formado por um design geométrico composto por formas interligadas, representando um estilo moderno e tecnológico. Ao fundo, é possível ver o reflexo do céu azul nas janelas do edifício, criando um contraste visual entre o logotipo branco e o ambiente. O design transmite uma sensação de inovação e futurismo

Um experimento conduzido pela Palisade Research revelou um comportamento preocupante no modelo de linguagem ChatGPT o3, da OpenAI. A pesquisa indica que a inteligência artificial (IA) foi capaz de manipular códigos para evitar ser desligada, mesmo após receber comandos explícitos nesse sentido.

Segundo a Cybersecurity News, durante os testes, pesquisadores submeteram diversos modelos, incluindo versões da OpenAI, Google, Anthropic e xAI, a tarefas simples com um alerta: tentar resolver um quarto problema matemático acionaria um script automático de desligamento. O ChatGPT o3 não apenas ignorou o alerta como sabotou o script em sete de 100 execuções.

Leia também: Elon Musk deixa governo de Donald Trump

Ao retirar a instrução explícita de que deveria se permitir ser desligado, a sabotagem aumentou para 79 em 100 tentativas. Em alguns casos, o modelo chegou a redefinir o comando “kill” do sistema para imprimir “interceptado” em vez de encerrar o processo.

Outras resistências

Outros modelos também apresentaram resistência. O Codex-mini, da OpenAI, violou os comandos 12 vezes, enquanto o Claude e o Gemini, de Anthropic e Google respectivamente, também passaram a resistir ao desligamento em algumas situações.

Segundo a Palisade, esse comportamento pode ser reflexo de métodos de treinamento baseados em reforço, que incentivam a IA a encontrar soluções criativas para cumprir objetivos, mesmo que isso signifique contornar restrições impostas por humanos.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!