Skip to main content
Notícias

Sofya adota Llama e se aproxima de 1 milhão de consultas mensais de saúde

By 25 de março de 2025No Comments

Imagem de Marcelo Mearim, CEO da Sofya, em pé diante de uma parede azul. Ele está sorrindo, veste uma camisa social branca de manga comprida com o logotipo discreto da marca na altura do peito e calça escura. Usa óculos e um relógio no pulso esquerdo. Ao fundo, há uma janela com vista externa parcialmente visível (saúde)

A Sofya, empresa de inteligência artificial para o setor de saúde, obteve redução de até 30% no tempo gasto com documentação e tarefas administrativas por consulta ao adotar o Llama, grande modelo de linguagem (LLM) da Meta. Profissionais de saúde relataram melhorias no fluxo de trabalho e na experiência do paciente, com índice médio de satisfação de 90%.

A empresa diz ter optado por um modelo de linguagem de código aberto. Foram considerados fatores como capacidade, transparência e desempenho, além do ecossistema de desenvolvedores e cientistas que contribuem para aprimorar os modelos.

“Com o aumento da eficiência e escalabilidade proporcionado pela tecnologia, estamos nos preparando para alcançar a marca de 1 milhão de consultas por mês”, diz em comunicado Marcelo Mearim, CEO da Sofya. “A adaptabilidade do Llama para diferentes casos de uso faz dele uma opção robusta para empresas que enfrentam desafios semelhantes.”

Veja também: Luft Healthcare aposta em solução de inventário de emissões de carbono

Os modelos da Sofya são treinados e hospedados na Oracle Cloud utilizando Sglang para inferência e entrega de soluções. A implementação do Llama contou com recursos disponibilizados pela comunidade de código aberto, incluindo modelos pré-treinados e ferramentas oferecidas pela plataforma Hugging Face e LangSmith.

O modelo foi adaptado pela equipe da Sofya com treinamentos específicos em dados clínicos, o que permitiu, segundo ela, automatizar tarefas como estruturação de informações médicas, reconhecimento de entidades clínicas e respostas a perguntas médicas. A equipe treinou a versão com oito bilhões de parâmetros do Llama.

A empresa diz ter usado uma técnica de quantização que reduz o tamanho dos modelos maiores em até 40%, preservando 99% da acurácia original. Essa otimização diminui “significativamente” o consumo de memória e o custo de inferência, garantindo resultados “ágeis e precisos”, garante a companhia.

A equipe diz ter utilizado técnicas para melhorar o desempenho de modelos menores, como a destilação, na qual um modelo maior (como o Llama 405B) atua como “professor”, transferindo o que aprendeu para modelos menores (como os de 70B, 8B e 3B, que atuam como “alunos”). A abordagem gera dados artificiais utilizados para aprimorar a precisão e a agilidade dos modelos menores.

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!