Skip to main content

Imagem futurista de tecnologia digital com uma mão interagindo com um painel holográfico de interfaces de dados e gráficos

Os dados sintéticos, gerados por algoritmos para replicar estatísticas de dados reais sem expor informações sensíveis, já representam mais de 60% do total usado em aplicações de IA em 2024, segundo estimativas citadas pelo MIT News. A expectativa é de que esse volume continue a crescer em diferentes setores.

Para entender os benefícios e desafios dessa prática, o portal conversou com Kalyan Veeramachaneni, pesquisador principal do Laboratório de Sistemas de Informação e Decisão do MIT e cofundador da DataCebo, responsável pelo Synthetic Data Vault, plataforma de código aberto voltada à geração e avaliação de dados sintéticos.

Veeramachaneni explica que esses dados não se originam de situações reais, mas sim de modelos generativos capazes de capturar regras e padrões presentes em conjuntos originais, a partir de uma pequena amostra inicial. Com isso, é possível produzir volumes ilimitados de dados que preservam características estatísticas dos originais.

Existem quatro modalidades principais de geração: linguagem, imagens/vídeos, áudio e dados tabulares. Enquanto textos e imagens podem ser extraídos de conteúdos públicos disponíveis na internet, informações tabulares, como transações financeiras, normalmente estão protegidas por firewalls corporativos.

Leia também: “Falhe rápido, falhe cedo e falhe com frequência”: a receita Pixar para inovar

Vantagens e aplicações práticas

Um dos usos mais difundidos é em testes de software, que exigem grandes quantidades de dados para validar funcionalidades. Antes, era comum criar dados manualmente, processo caro e limitado. Com modelos generativos, é possível gerar cenários específicos, como transações de clientes em determinada região ou período.

Outro benefício está em testes de desempenho, já que companhias podem simular bilhões de registros para avaliar a robustez de seus sistemas. No campo de machine learning, os dados sintéticos são úteis para lidar com eventos raros, como fraudes bancárias. Ao criar exemplos adicionais, aumentam a precisão de modelos preditivos.

A tecnologia também ajuda quando há restrições de tempo e orçamento para coleta de informações. Pesquisas de intenção de compra, por exemplo, podem ser complementadas com dados sintéticos, evitando que modelos sejam treinados com bases insuficientes.

Riscos e limitações dos dados sintéticos

Apesar das vantagens, o uso exige cautela. O pesquisador aponta que a confiança nos dados depende da avaliação do sistema em que serão aplicados. Embora existam métricas de qualidade e privacidade consolidadas, novos indicadores de eficácia estão surgindo para medir o desempenho em tarefas específicas.

Outro risco é a replicação de vieses já presentes nos dados reais usados no treinamento. Caso não sejam aplicadas técnicas de amostragem balanceada, os modelos podem perpetuar desigualdades.

Para mitigar esses problemas, o MIT desenvolveu a Synthetic Data Metrics Library, ferramenta que ajuda a avaliar a fidelidade e a eficácia dos dados gerados. Segundo Veeramachaneni, é necessário criar fluxos de validação rigorosos, garantindo que conclusões obtidas com dados sintéticos permaneçam válidas em cenários reais.

A previsão do pesquisador é de que a evolução dos modelos generativos mude radicalmente a forma como empresas e cientistas trabalham com dados — seja para construir softwares, responder a perguntas analíticas ou treinar algoritmos. A tendência é que atividades antes inviáveis por limitações de privacidade, custo ou volume de dados se tornem cada vez mais acessíveis.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!