Skip to main content

A imagem mostra um smartphone com a tela exibindo o logotipo da "deepseek" sobre um fundo azul. O logotipo consiste em uma baleia estilizada em branco, acompanhada do nome da empresa em letras minúsculas. O aparelho tem um design moderno, com bordas finas e um entalhe na parte superior da tela. A imagem transmite uma estética tecnológica e minimalista, possivelmente relacionada a inteligência artificial, pesquisa ou desenvolvimento de software, microsoft

A startup chinesa DeepSeek apresentou uma nova técnica que pode transformar a forma como os modelos de inteligência artificial armazenam e lembram informações. Em vez de processar o texto em pequenas unidades chamadas tokens, como fazem sistemas tradicionais, a empresa passou a converter dados escritos em imagens, o que permite compactar muito mais conteúdo em menos espaço computacional.

O avanço foi detalhado em um artigo técnico divulgado na última semana e analisado pela MIT Technology Review. O estudo mostra que o novo modelo de reconhecimento óptico de caracteres (OCR) da DeepSeek, voltado a extrair e converter textos de imagens, foi usado como base para testar essa nova arquitetura de “memória visual”.

Segundo os pesquisadores, armazenar informações como imagens, em vez de apenas texto fragmentado, ajuda o modelo a “lembrar” mais dados sem exigir o mesmo volume de processamento e armazenamento. Essa mudança pode aliviar um dos maiores gargalos da IA moderna: o custo energético e financeiro para manter o contexto de conversas longas com usuários, o que leva ao fenômeno conhecido como “context rot” (quando a IA esquece informações anteriores).

Leia também: Francieli Pietsch, da BBM Logística: “é preciso ser incansável”

O sistema também utiliza um mecanismo de compressão em camadas, que funciona de forma semelhante à memória humana: conteúdos mais antigos ou menos relevantes são guardados em uma versão mais difusa, economizando espaço, mas permanecendo acessíveis caso sejam necessários novamente.

Por que essa novidade importa?

A proposta chamou atenção de nomes de peso no setor. Andrej Karpathy, ex-líder de IA da Tesla e cofundador da OpenAI, elogiou a inovação nas redes sociais, dizendo que “as imagens podem ser uma forma mais eficiente de entrada para modelos de linguagem”, já que o uso de tokens textuais é “desperdiçador”.

Especialistas ouvidos pela reportagem destacaram que a pesquisa abre uma nova frente de experimentação para o campo da IA. Manling Li, professora de ciência da computação da Northwestern University, afirmou que “embora o uso de tokens visuais não seja totalmente inédito, é a primeira vez que se prova que o método realmente pode funcionar em larga escala”. Já o pesquisador Zihan Wang, também da Northwestern, destacou que a abordagem pode tornar os agentes de IA mais úteis e capazes de reter informações em interações contínuas.

Além de aprimorar a memória, a técnica pode gerar novos conjuntos de dados para treinar modelos, um recurso valioso em um momento de escassez de material de qualidade para alimentar sistemas de IA. O estudo indica que o sistema da DeepSeek é capaz de produzir mais de 200 mil páginas de dados por dia em uma única GPU, ampliando de forma significativa a base de treinamento disponível.

Apesar dos resultados promissores, a própria equipe da DeepSeek reconhece que a tecnologia ainda está em fase inicial. O próximo passo será testar o uso das imagens não apenas para memória, mas também para raciocínio e aprendizado, aproximando o funcionamento dos modelos de IA de um processo cognitivo mais humano, que sabe distinguir entre o que é importante e o que pode ser esquecido.

Sediada em Hangzhou, na China, a DeepSeek tem se destacado como um dos nomes mais inovadores do país em pesquisa de IA. No início de 2025, a empresa já havia surpreendido o setor com o lançamento do DeepSeek-R1, um modelo de raciocínio aberto que rivalizou com sistemas ocidentais de ponta, utilizando muito menos poder computacional.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!