Skip to main content

dado

Peça a um modelo de inteligência artificial que gere a imagem de uma cidade, sem indicar país ou região. A resposta quase sempre traz um arranha-céu norte-americano. Peça Maracatu. Peça um mercado público do Nordeste. Peça qualquer manifestação cultural fora do eixo atlântico. Os resultados ficam genéricos, equivocados ou em branco.

Não é falha de algoritmo. É a consequência direta de onde vieram os dados que treinaram o modelo, e de quem decidiu quais dados valiam ser coletados.

Esse diagnóstico está na base da Bamboo Data, datatech brasileira que estrutura datasets audiovisuais de cultura brasileira para treinar modelos de IA. Para as empresas que usam essas ferramentas no Brasil, incluindo bancos, varejistas, operadoras de saúde e indústrias, o problema não é abstrato.

“A discussão sobre IA normalmente começa nos modelos, mas a questão mais estratégica está antes deles, na origem dos dados. Se o Brasil não estrutura suas próprias bases, a tecnologia aprende sobre o país de forma superficial e incompleta”, afirma Jorge Brivilati, cofundador e CEO da companhia.

O que a pesquisa mostra

A literatura científica sobre o tema é extensa e consistente. Pesquisadores do laboratório FAIR, da Meta, desenvolveram indicadores para avaliar disparidades geográficas em sistemas de geração de imagens e encontraram que modelos de texto para imagem produzem resultados com menor realismo e menor diversidade quando solicitados a representar África e Ásia Ocidental, em comparação com Europa e América do Norte.

O viés geográfico aparece em diferentes camadas. Estudo publicado no arXiv em junho de 2025, que analisou os modelos FLUX 1 e Stable Diffusion 3.5, identificou que ambos, quando acionados com o prompt genérico “EUA”, gravitam sistematicamente para um cenário metropolitano estilizado, deixando cidades menores, regiões rurais e comunidades periféricas fora do resultado.

O problema vai além da geografia. Uma pesquisa da Universidade de Massachusetts, em parceria com o laboratório FAIR e a Universidade McGill, mostrou que as disparidades nos planos de fundo gerados, como ruas, construções e paisagens, são 1,7 vez maiores entre regiões geográficas do que nos objetos em si, o que indica que o viés está embutido na forma como os modelos constroem o contexto cultural das imagens.

Quando o recorte sai do espaço físico e chega às pessoas, o quadro se repete. Publicação recente no arXiv intitulada Hidden Bias in the Machine: Stereotypes in Text-to-Image Models analisou mais de 24 mil imagens geradas pelos modelos Stable Diffusion 1.5 e Flux-1 e encontrou disparidades expressivas na representação de gênero, raça e faixa etária, concluindo que os modelos replicam e amplificam vieses sociais presentes nos conjuntos de dados com os quais foram treinados.

Para empresas que operam no Brasil e usam IA generativa em comunicação, atendimento ao cliente ou criação de conteúdo, o dado tem implicação prática direta: o modelo entrega, por padrão, uma visão de mundo que não é a do público que a empresa quer alcançar.

Da periferia ao banco de dados

Brivilati cresceu na Vila Ipiranga, periferia de Niterói, na região metropolitana do Rio de Janeiro. Começou a fotografar aos sete anos, com máquinas de filme que a mãe lhe emprestava para registrar aniversários. Aos 15, teve o primeiro contato com design digital. Aos 16, entrou na publicidade, onde ficou pelas décadas seguintes, com passagens por agências como Y&W e W/McCann.

A virada veio de dentro das agências. Os bancos de imagens disponíveis no mercado eram majoritariamente anglo-saxônicos. Quando um cliente precisava de um rosto negro, de uma cena de festa junina, de um mercado público nordestino, as opções eram escassas ou genéricas. “O esforço que esses bancos fizeram para o mercado brasileiro foi ínfimo. Tínhamos poucas opções de qualidade disponíveis”, conta.

Desse problema nasceu a Bamboo Stock, plataforma de licenciamento de audiovisual com foco em produção nacional. Depois veio a Bamboo Data, com proposta mais ampla: estruturar datasets com curadoria editorial, rastreabilidade jurídica e contratos firmados com todos os realizadores envolvidos, autorizando especificamente o uso dos materiais para treinamento de IA. A empresa já disponibiliza publicamente, na plataforma Hugging Face, uma amostra de 200 clipes e 2.400 frames representando a diversidade brasileira, com modelos de contrato próprios para o mercado de dados.

Dado cultural como ativo estratégico

O debate sobre soberania de dados ganha uma camada adicional quando o tema sai do audiovisual e chega à infraestrutura de Estado, questão diretamente relevante para CIOs e gestores de tecnologia que lidam com dados sensíveis.

“Todo o conhecimento sobre o Brasil coletado da internet não está em servidores brasileiros. Segue para os Estados Unidos, passa pela Europa e volta para cá. Todos os dados da Justiça brasileira, do SEI, os dados dos cidadãos estão ali dentro. Se estão em mãos erradas, a vantagem de quem controla essas inteligências artificiais sobre um determinado país é muito grande”, afirma Brivilati.

O fundador usa a disputa entre TikTok, os Estados Unidos e a China como referência. O ponto central do conflito, na leitura dele, não é um aplicativo de vídeos, mas o controle de dados comportamentais em escala e a capacidade de influenciar populações a partir desse material.

Pesquisadores alertam que, se imagens produzidas por IA contendo vieses e estereótipos contaminarem os dados de treinamento das próximas gerações de modelos, os sistemas futuros poderão se tornar ainda mais enviesados, num ciclo que se retroalimenta.

No plano regulatório, o Brasil se move. O governo federal anunciou R$ 23 bilhões em investimentos no Plano Nacional de Inteligência Artificial até 2028, com R$ 14 bilhões destinados à inovação empresarial. O governo do Piauí lançou o programa SoberanIA, com mais de 130 bilhões de palavras em língua portuguesa, apresentado como o maior dataset do mundo voltado ao desenvolvimento de IA em português, com dados mantidos sob guarda do Estado e em conformidade com a LGPD.

“Soberania de dados não significa isolamento tecnológico, mas capacidade de participar da construção global da IA com repertório próprio. Dados culturais organizados permitem que a tecnologia reconheça contextos, expressões e territórios de forma mais fiel”, explica Tico Pereira, cofundador e diretor de operações da Bamboo Data.

Veja também: Dora Kaufman: o que a IA muda no trabalho, na educação e nas decisões humanas | IT Forum Líderes

A criatividade que a IA ainda não copia

Perguntado sobre o futuro do mercado criativo, Brivilati recorre a um raciocínio sobre comportamento cognitivo. As primeiras ideias de um ser humano tendem ao familiar. A IA funciona da mesma forma: otimiza para associações conhecidas, não para o desconforto que a criatividade de fato exige.

“A IA não foi treinada para ser criativa. Foi treinada para ser rápida e fazer associações comuns. Se um profissional souber usá-la, ela funciona como um cérebro extra para abrir caminhos que não seriam percorridos de outra forma. Profissionais que se contentam com a primeira entrega chegam a resultados medíocres”, avalia.

No mercado, o movimento já é observável. Marcas como Porsche e Apple passaram a divulgar o processo de criação humana junto com a peça final. “Quase todos os grandes anunciantes estão lançando o behind the scenes ao lado da peça para mostrar que foi feito por um humano. O engajamento cresce porque as pessoas se identificam mais”, acrescenta.

O que escala junto com a IA

Na força de trabalho em geral, Brivilati é enfático. “A IA amplia tudo que já existe. Não encontrei ainda nada que ela tenha encurtado. A desigualdade, o preconceito, a separação entre quem sabe usar e quem não sabe, tudo isso escala. O grande desafio é mitigar vieses que, em sua grande maioria, são invisíveis”, afirma.

Para o executivo, o problema do Brasil não é falta de regulação ou de recurso. É de velocidade. Enquanto o debate avança, os dados continuam sendo coletados, processados e armazenados fora do país, por empresas que definem quais culturas a inteligência artificial aprende a reconhecer.

“Preocupa-me o Brasil, onde não conseguimos colocar a cabeça para fora da água direito e já empurram para baixo novamente. Quanto fôlego nos resta?”, diz.

A resposta que orienta o trabalho da Bamboo Data é ocupar o espaço antes que outras empresas, sem os mesmos compromissos com representatividade, o façam. “Se o Brasil não organiza seus próprios dados, outros decidem o que a IA aprende sobre o Brasil”, diz Brivilati.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!