Arquitetura Medalhão e Modelagem
O processamento dos dados foi dividido em camadas lógicas dentro do Databricks, evoluindo a qualidade do dado a cada etapa. Todo o armazenamento a partir da camada Bronze utiliza o formato Delta Lake.
🥉 Camada Bronze (Raw)
A ingestão lê os arquivos CSV do schema LANDING/DADOS e os salva como tabelas Delta Lake no schema BRONZE.
Nesta camada, os dados estão no seu formato bruto, mas com os benefícios de performance e versionamento do Delta. Adicionamos também metadados de auditoria, como dt_ingestao e nm_arquivo_origem.
🥈 Camada Silver (Cleansed / Data Quality)
No Notebook 003, lemos os dados do schema BRONZE e aplicamos regras de Data Quality.
As validações e limpezas realizadas incluem:
* Remoção de registros duplicados;
* Tratamento de valores nulos (Nulls);
* Padronização de strings e formatos de data;
* Tipagem correta das colunas (casting).
O resultado é salvo em tabelas confiáveis no schema SILVER.
🥇 Camada Gold (Dimensional / Ralph Kimball)
Por fim, no Notebook 004, lemos os dados do schema SILVER e aplicamos a Modelagem Dimensional baseada na metodologia de Ralph Kimball (Star Schema).
Criamos o schema GOLD contendo as seguintes tabelas otimizadas para consultas analíticas e BI:
Tabelas Dimensão (Contexto)
dim_cliente: Dados demográficos e de localização dos clientes.dim_produto: Detalhes do produto, dimensões, peso e categoria traduzida.dim_vendedor: Dados e localização dos parceiros de venda.dim_data: Calendário contendo os atributos de tempo dos pedidos.
Tabela Fato (Métricas)
fato_pedido: Tabela central contendo as chaves estrangeiras (FKs) que ligam às dimensões e as métricas de negócio (valor do produto, valor do frete, valor do pagamento, nota da avaliação).