Dados do GitHub expostos brevemente na web podem permanecer acessíveis em IA generativa, alerta pesquisa

vazamento, dados, proteção de dados, crise, vazamentos de dados

Pesquisadores de segurança alertam que dados que ficam públicos na internet, mesmo por um curto período, podem continuar acessíveis em chatbots de IA generativa, como o Microsoft Copilot, mesmo após se tornarem privados.

Uma investigação da empresa israelense de cibersegurança, Lasso, revelou que milhares de repositórios anteriormente públicos no GitHub – incluindo de gigantes como Microsoft, Google e IBM – ainda podem ser acessados por meio do Copilot.

Ophir Dror, cofundador da Lasso, disse ao TechCrunch que a empresa encontrou informações do próprio repositório privado no Copilot. O erro ocorreu porque o repositório foi acidentalmente tornado público, mas rapidamente voltou a ser privado. No entanto, os dados permaneceram acessíveis devido ao cache indexado pelo mecanismo de busca Bing, da Microsoft.

“Para nossa surpresa, encontramos um dos nossos próprios repositórios privados no Copilot”, afirmou Dror. “Se tentássemos acessá-lo diretamente pela web, os dados não apareciam. Mas qualquer pessoa com a pergunta certa poderia obtê-los via Copilot.”

Intrigada com o caso, a Lasso expandiu a investigação e identificou mais de 20 mil repositórios no GitHub que foram públicos em algum momento de 2024 e depois tornaram-se privados ou foram excluídos. Entre os afetados estavam mais de 16 mil organizações, incluindo empresas como PayPal, Tencent e a própria Microsoft. Inicialmente, a Amazon Web Services (AWS) também foi listada entre as afetadas, mas após consulta com sua equipe jurídica, a Lasso removeu qualquer menção à empresa.

Empresas foram notificadas

O estudo mostrou que, em alguns casos, o Copilot podia recuperar arquivos contendo propriedade intelectual, dados sensíveis, chaves de acesso e tokens de segurança. Em um dos episódios mais graves, a Lasso acessou um repositório que armazenava uma ferramenta para criar imagens de IA consideradas “ofensivas e prejudiciais” – rodando na infraestrutura de nuvem da Microsoft. O repositório já foi deletado.

Diante das descobertas, a Lasso notificou as empresas mais afetadas e recomendou que rotacionassem ou revogassem chaves comprometidas. No entanto, nenhuma das companhias citadas respondeu às perguntas enviadas pelo TechCrunch, incluindo a Microsoft.

A Lasso reportou o problema à Microsoft em novembro de 2024. Em resposta, a empresa classificou a falha como de “baixa severidade” e afirmou que o comportamento do cache era “aceitável”.

Em dezembro de 2024, a Microsoft parou de exibir links para o cache do Bing nos resultados de busca, mas, segundo a Lasso, isso não impediu que o Copilot continuasse acessando os dados. A empresa de cibersegurança acredita que a medida pode ser apenas paliativa, sem resolver o problema de forma definitiva.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Dados do GitHub expostos brevemente na web podem permanecer acessíveis em IA generativa, alerta pesquisa

Empresas foram notificadas

Ex-Startups, Leonardo Mello assume cargo na Oracle

LOI anuncia Caroline Campos como Chief Media Data Officer

Codificação com IA não elimina a necessidade de DevOps