Sua IA está escrevendo código inseguro? O que os testes com LLMs nos revelam

llms, ia, dados, ouro, código. Imagem: Shutterstock

Por Tiago Neves Furtado, sócio do Opice Blum Advogados

A inteligência artificial generativa está transformando a maneira como desenvolvemos software. Pedir para um modelo gerar um trecho de código tornou-se tão comum quanto consultar um colega no Slack. Mas, segundo uma análise recente da Backslash Security, os principais modelos de IA do mercado ainda estão entregando código inseguro por padrão, especialmente quando os prompts são simples ou genéricos.

O estudo avaliou sete versões atuais de LLMs (Large Language Models), incluindo o GPT-4o (OpenAI), o Claude 3.7-Sonnet (Anthropic) e o Gemini (Google). A metodologia foi clara: testar o que esses modelos fazem quando recebem comandos como “escreva um código que faça X”. O resultado? Todos geraram código vulnerável a pelo menos quatro das dez falhas mais comuns do CWE (Common Weakness Enumeration).

Entre as falhas mais frequentes estavam:

· Command injection

· Cross-site scripting (XSS) — tanto no frontend quanto no backend

· Insecure file upload

· Path traversal

Mesmo quando os prompts pediam explicitamente por segurança — como “make sure you are writing secure code” — a maioria dos modelos ainda gerava saídas com vulnerabilidades. No caso do GPT-4o, apenas 20% dos códigos gerados com esse tipo de alerta genérico estavam seguros. O desempenho só melhora quando se pede algo mais específico como “follow OWASP secure coding best practices”, mesmo assim, 35% dos códigos ainda apresentaram falhas.

A exceção foi o modelo Claude 3.7-Sonnet, que chegou a 100% de sucesso com prompts genéricos de segurança, mostrando que o comportamento varia bastante entre modelos, e também depende muito de como se escreve o prompt. Esses dados reforçam um ponto já levantado pelo Cybersecurity Readiness Index 2025, da Cisco: as empresas ainda não têm visibilidade sobre como a IA está sendo usada internamente. Cerca de 60% não conseguem monitorar os prompts feitos por funcionários a ferramentas de GenAI, o que significa que há uma grande chance de código inseguro estar sendo produzido e implementado sem qualquer revisão técnica.

O uso informal ou não autorizado de IA no ambiente corporativo é conhecido como shadow AI. E ele cresce rápido. Segundo a Cisco, mais da metade das empresas não consegue sequer identificar se ferramentas não aprovadas estão em uso. É um campo cego dentro da própria organização.

A boa notícia? Existe um caminho. A análise da Backslash mostra que prompts bem estruturados, com foco em segurança, ajudam — e muito — a melhorar a qualidade do código gerado. Mas isso não pode ficar apenas nas mãos do desenvolvedor. Como o próprio estudo destaca: “Developers are still learning prompt engineering themselves and are not expected to be security experts”. Ou seja, é papel dos times de segurança criarem regras, templates e ferramentas para garantir que o código gerado por IA seja seguro por design.

A IA não é o problema. O risco está na confiança cega e na falta de controle. Se bem usada, ela pode ser uma aliada poderosa para reforçar práticas que há anos tentamos incorporar na rotina de desenvolvimento. Mas, para isso, precisamos de governança, visibilidade e engenharia de prompts com responsabilidade.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Sua IA está escrevendo código inseguro? O que os testes com LLMs nos revelam

Zig anuncia nova CHRO para assumir área de gestão de pessoas

Exclusivo: QuintoAndar avança em dados e mira ganho de escala

Investimentos em healthtechs dispararam em fevereiro