Bem-vindo(a) ao Lakehouse Olist
Projeto prático da disciplina demonstrando a implementação de um pipeline de dados ponta a ponta no Databricks Free Edition, utilizando a Arquitetura Medalhão (Medallion Architecture) e o formato Delta Lake.
🎯 Objetivo do Trabalho
Conforme os requisitos da disciplina, o objetivo deste projeto é construir um pipeline automatizado que:
- Extrai dados e os armazena no formato CSV no schema
LANDING/DADOS. - Ingere esses dados no formato Delta Lake criando a camada BRONZE (Raw).
- Trata e aplica regras de Data Quality criando a camada SILVER (Trusted).
- Modela os dados no formato Estrela (Ralph Kimball) criando tabelas Fato e Dimensão na camada GOLD.
- Automatiza todo o processo através do recurso de Jobs & Pipelines do Databricks de forma sequencial.
⚙️ Tecnologias Utilizadas
- Databricks: Plataforma unificada de Analytics baseada em Apache Spark.
- Delta Lake: Formato de armazenamento open-source que traz transações ACID para Data Lakes.
- PySpark: API em Python para processamento distribuído no Apache Spark.
- MkDocs: Gerador de sites estáticos voltado para documentação de projetos de software.