Lakehouse & Fabric
Pipeline incremental de alta frequência no Microsoft Fabric
Ingestão contínua de eventos operacionais com PySpark em notebooks, camadas Bronze/Silver/Gold e publicação estável para consumo em BI.
Contexto
Operação com volume crescente e janelas de decisão curtas; o time precisava de dados “quase em tempo real” sem sacrificar qualidade.
Problema
Cargas batch diárias geravam filas de análise e versões divergentes do mesmo indicador entre áreas.
Arquitetura de dados
Fontes → landing Bronze (raw) → Silver (regras de negócio e chaves) → Gold (grãos analíticos) → dataset semântico no Power BI. Notebooks PySpark para transformações pesadas; pipeline orquestra janelas incrementais com idempotência e checkpoints.
O que foi feito
Definição de contratos por fonte, padronização de chaves e testes mínimos de qualidade na Silver. Incrementais por watermark + partição para reduzir custo. Monitoramento de falhas e SLAs explícitos por etapa.
- Notebooks versionados e documentados
- Pipeline Fabric com dependências claras
- Camada Gold com grãos acordados com negócio
Decisão e indicadores
Priorização de exceções operacionais e leitura de backlog de falhas com base em dados atualizados.
- Atraso médio de ingestão (lag)
- Taxa de falhas por fonte
- Volume processado por janela
Resultado / impacto
Menos retrabalho entre engenharia e consumo: números alinhados na Gold e refresh previsível para squads de negócio.
Aprendizados
- Incremental bom não é só “delta”: é política de reprocessamento e rastreabilidade quando algo quebra.
Narrativa complementar (opcional): detalhe aqui trade-offs de particionamento, custo de capacidade ou lições de governança em ambiente Fabric.