Reading.

Currently reading

AI Engineering

Chip Huyen

Not much to say for now

Finished

2025

Deciphering Data Architectures: Choosing Between a Modern Data Warehouse, Data Fabric, Data Lakehouse, and Data Mesh

James Serra

O livro é um guia prático para perceber e escolher entre as principais arquiteturas de dados modernas. Serra, com longa experiência na área (incluindo na Microsoft), parte do princípio de que não existe uma arquitetura "melhor" universal — a escolha certa depende do contexto, da maturidade e das necessidades de cada organização. A obra está organizada em torno de quatro grandes abordagens: Modern Data Warehouse (MDW) — A evolução do data warehouse tradicional para a cloud, normalmente assente numa arquitetura relacional e em processos ETL/ELT. Continua a ser uma opção sólida e madura para muitos casos, sobretudo em cenários centrados em BI e reporting estruturado. Data Fabric — Uma camada de integração e gestão que liga fontes de dados distribuídas, com forte ênfase em metadados, automação e governação. Não substitui as outras arquiteturas, antes funciona como um padrão de integração que pode assentar sobre elas. Data Lakehouse — A combinação da flexibilidade e baixo custo do data lake com as capacidades transacionais e de performance do data warehouse (via formatos como Delta Lake, Iceberg ou Hudi). Permite uma única plataforma para workloads de BI, data science e machine learning. Data Mesh — Mais um paradigma organizacional do que tecnológico. Descentraliza a propriedade dos dados por domínios de negócio, tratando os dados como produtos, com governação federada e infraestrutura self-service. Serra é deliberadamente realista quanto à sua complexidade e aos pré-requisitos de maturidade que exige. Ao longo do livro, o autor desmistifica o "hype" e o jargão de marketing em torno destes conceitos, clarifica conceitos fundamentais (data lakes, OLTP vs OLAP, tipos de dados, RBAC, MPP, etc.) e oferece critérios concretos de decisão — fatores como volume de dados, perfil da equipa, requisitos de governação, custos e cultura organizacional. A mensagem central é pragmática: deve escolher-se a arquitetura em função do problema real, e frequentemente a solução acaba por ser híbrida. É uma leitura especialmente útil para arquitetos de dados, engenheiros e decisores técnicos que precisam de fundamentar escolhas arquiteturais — bastante alinhado, aliás, com o teu trabalho de lakehouse e governação no Unity Catalog.

data architectures

2024

Fundamentals of Data Engineering

Joe Reis & Matt Housley

Fundamentals of Data Engineering — Joe Reis & Matt Housley Este livro fala sobre engenharia de dados de uma forma leve e com uma linguagem acessível a todos. É admirável como o Joe Reis consegue abordar temas complexos — desde arquitetura e pipelines de dados, qualidade de dados, até às diferenças entre ambientes on-premises e cloud — de maneira clara e envolvente. Mais do que detalhes técnicos, o livro dá uma ideia geral do que é, na prática, a vida de um engenheiro de dados: não só as tecnologias e ferramentas, mas também o lado humano da profissão, como as conversas e o alinhamento com os stakeholders. É uma leitura que equilibra a visão de alto nível com o pequeno detalhe do dia a dia, tornando-o valioso tanto para quem está a começar como para quem já trabalha na área. Recomendo vivamente.

data engineering

2023

Spark - The Definitive Guide: Big data processing made simple

Bill Chambers, Matei Zaharia

Spark: The Definitive Guide — a bíblia do Spark continua de pé Há livros técnicos que envelhecem mal ao fim de um ano. E há outros que, mesmo desatualizados em versão, continuam a ser leitura obrigatória porque ensinam "fundamentos" em vez de receitas. *Spark: The Definitive Guide — Big Data Processing Made Simple*, de Bill Chambers e Matei Zaharia (O'Reilly, 2018), é claramente o segundo caso. Quem o escreveu importa: Antes de falar do conteúdo, vale a pena olhar para a autoria — porque aqui ela pesa. Um dos autores é **Matei Zaharia**, e poucos nomes têm tanta legitimidade para escrever sobre Spark: foi ele que o criou, ainda como projeto de doutoramento no AMPLab de Berkeley. Mais do que isso, Zaharia é **cofundador e CTO da Databricks**, a empresa que mais impulsionou o motor e o transformou na base da plataforma lakehouse que muitos de nós usamos hoje no dia-a-dia. Ou seja, a linhagem vai direta do autor → Spark → Databricks → Delta Lake / Unity Catalog. É o mesmo fio condutor de praticamente todo o stack moderno de engenharia de dados. Não é um livro escrito por alguém que aprendeu Spark; é escrito por quem o concebeu. Apesar de ser sobre o Spark 2.x... Sim, o livro assenta no Spark 2.x, e à data de escrita já vamos na 4.1.x (com a 4.2.0 ainda em preview). Faz a conta: são vários anos e várias versões maiores de distância. E ainda assim continua a ser *a* referência. Porquê? Porque a base concetual não mudou na sua essência — DataFrames, Catalyst, Tungsten, *lazy evaluation*, o modelo de execução distribuída com driver, executors e partições. Tudo isto é exatamente como se trabalha com Spark hoje, incluindo no Databricks. O livro é de **fundamentos**, e fundamentos não expiram à mesma velocidade que as release notes. O que cobre: A obra está organizada por camadas, do prático ao avançado: **Fundamentos e Structured APIs.** Começa pela arquitetura do Spark e dedica grande parte do livro a DataFrames, Datasets e Spark SQL. Esta é a secção mais valiosa e duradoura: tipos de dados, funções, agregações, joins, leitura/escrita em múltiplos formatos e fontes. É literalmente como se escreve Spark moderno. **APIs de baixo nível.** RDDs e variáveis distribuídas (broadcast, accumulators). Menos usados no dia-a-dia — a recomendação é preferir as Structured APIs — mas essenciais para perceber o que se passa por baixo do capô. **Operação em produção.** Deployment, execução em cluster, gestão de recursos, monitorização, debugging e, sobretudo, **tuning de performance**. Este capítulo continua extremamente relevante e largamente aplicável às versões atuais. **Structured Streaming.** O modelo unificado de processamento em tempo real, assente nas mesmas Structured APIs. Foi uma das grandes apostas do Spark 2.x e mantém-se central. **Analytics avançada e ecossistema.** Introdução ao MLlib, mais capítulos sobre GraphX e outras bibliotecas. Onde mostra a idade Sendo honesto, há partes que envelheceram de forma desigual. O **GraphX** ficou essencialmente estagnado — o ecossistema acabou por convergir mais para GraphFrames e outras soluções. E vários detalhes de configuração e APIs já não refletem as melhorias mais recentes: Adaptive Query Execution (AQE), Photon, liquid clustering, os avanços no Spark Connect, e por aí fora — tudo coisas que chegaram depois do livro. Mas isto não lhe tira valor. Continua a ser um livro de fundamentos, não de novidades. Veredito Para quem quer *perceber verdadeiramente* como o Spark funciona — em vez de decorar snippets — esta continua a ser a leitura de eleição. A regra prática é simples: - Para a **base sólida** de como o Spark pensa e executa → este livro. - Para as **funcionalidades recentes** do Spark 4.x e do Databricks → complementa-se com a documentação oficial. A bíblia continua de pé. Só precisa de um apêndice atualizado — e esse, hoje, são os docs.

sparkspark-structured-streaming