SSaúde Pública BR
← Análises
ciência de dadosengenharia de dadosdados abertosreprodutibilidade

Inteligência epidemiológica a custo zero: a arquitetura por trás da plataforma

Como transformar gigabytes de microdados do DataSUS em uma API pública, reproduzível e gratuita — uma nota técnica na fronteira entre saúde coletiva e engenharia de dados.

PF

Pedro Fernandes

20 de maio de 2026 · 9 min de leitura

Resumo

Descrevemos as decisões de arquitetura que permitem servir indicadores de cinco sistemas do DataSUS sem custo de manutenção: agregação local em DuckDB, publicação apenas de marts agregados, API automática via PostgREST e front-end estático. Uma discussão metodológica sobre como infraestrutura define o que é possível em pesquisa.

Os dados do SUS são públicos, mas a barreira de acesso é técnica: microdados em formato DBC proprietário, fragmentados por unidade federativa e competência, somando dezenas de gigabytes. A maior parte do esforço de qualquer estudo epidemiológico no Brasil é gasta antes da análise — em obtenção e limpeza.

A tese desta plataforma é que a infraestrutura determina a pesquisa possível. Reduzir a barreira de acesso a zero — uma consulta de API em vez de semanas de engenharia — muda o que pesquisadores, jornalistas e gestores conseguem perguntar.

Princípio 1: agregar localmente, publicar o essencial

Os microdados (mais de 1,5 GB só para um ano de óbitos) são processados localmente com DuckDB, um motor analítico em processo que executa agregações sobre arquivos colunares em segundos. Para o banco em nuvem sobem apenas os marts agregados — município × período × categoria — com algumas centenas de milhares de linhas.

Essa escolha tem duplo benefício: cabe no nível gratuito de um Postgres gerenciado e, por publicar somente agregados, elimina qualquer risco de reidentificação. Privacidade por desenho, não por promessa.

Princípio 2: sem servidores para manter

A API REST é gerada automaticamente pelo PostgREST sobre o Postgres; o site é estático, servido por CDN; os dados de navegação comum são congelados em JSON no momento do build, levando o tráfego ao banco praticamente a zero. Não há servidor de aplicação para cair, atualizar ou pagar.

A consequência é estratégica: projetos acadêmicos costumam morrer quando acaba a verba ou o tempo do mantenedor. Uma arquitetura de custo marginal nulo foi desenhada para sobreviver ao abandono — uma forma de sustentabilidade que raramente é discutida em metodologia.

Princípio 3: reprodutibilidade radical

Cada número publicado pode ser regenerado a partir das fontes oficiais por um único script aberto, e uma rotina de validação confere âncoras conhecidas (totais anuais oficiais, conciliação entre marts) a cada atualização. A ferramenta é, ela própria, auditável — condição para que seus resultados sejam citáveis.

Na confluência entre saúde coletiva e ciência de dados, a lição é que o método não termina no modelo estatístico: começa na engenharia que torna o dado acessível, íntegro e verificável. É esse alicerce que sustenta todas as análises desta seção.

Referências e fontes

  1. Raasveldt M., Mühleisen H. DuckDB: an embeddable analytical database. SIGMOD, 2019.
  2. PostgREST. REST API automática sobre PostgreSQL. postgrest.org.
  3. Saúde em Dado. Pipelines e validação (código aberto). github.com/pedropaulofernandes88-stack/saude-publica-br.
Como citar: Pedro Fernandes. Inteligência epidemiológica a custo zero: a arquitetura por trás da plataforma. Saúde em Dado, maio de 2026. Disponível em: https://saudeemdado.com/artigos/arquitetura-dados-abertos-custo-zero/. Dados: DataSUS e IBGE (domínio público).

Sobre o autor

Pedro Fernandes

  • · Mestrando em Saúde Coletiva (IAMSPE)
  • · Pós-graduando em Inteligência Artificial e Ciência de Dados em Saúde (Hospital Sírio-Libanês)
  • · Diretor de Tecnologia da Informação — Prefeitura Municipal de Penápolis (SP)

Pesquisador na interseção entre saúde coletiva, ciência de dados e gestão pública. Concebeu e mantém a plataforma Saúde em Dado.