Data Lake e Data Warehouse: o que são?

Tempo de leitura: 4 minutos

No contexto da nova economia digital, os dados se tornam valiosíssimos ativos digitais para qualquer negócio que deseja sobreviver e se adaptar à era digital. A geração de dados acontece em níveis tão grandes e a uma velocidade tão abismante que muitos insights importantes podem acabar se perdendo nesse turbilhão de dados.

Por isso, é importante que o armazenamento de dados seja condizente com a velocidade e quantidade em que são gerados. Nesse contexto, surgem os Data Lakes e Data Warehouses.

O que é um Data Lake?

Um Data Lake é um depósito de dados que os armazena em grandes quantidades e em sua forma bruta, estruturada, semi-estruturada ou sem estrutura alguma. No Data Lake, a estrutura e os requisitos dos dados não são definidos até o momento em que o uso dos dados seja necessário.

Essa forma de coleta e armazenamento de dados é chamada schema on-read e significa que os dados só precisam ser formatados após o carregamento, ou seja, no momento da leitura pelo usuário. Os Data Lakes são bastante flexíveis e versáteis podendo ser utilizados por sistemas que demandem grandes quantidades de dados, tal como dispositivos IoT ou redes sociais. Além disso, também podem ser aplicados para Inteligência Artificial, Ciência de Dados e Machine Learning. 

Pode-se dizer que o objetivo dos Data Lakes é armazenar um grande volume de dados e fornecer uma visão ilimitada e não refinada dos mesmos, possibilitando analisá-los em tempo real e sendo mais recomendado para uso de usuários experientes como Analistas e Cientistas de Dados. 

O que é um Data Warehouse?

O Data Warehouse, é uma tecnologia antiga – quando comparada ao Data Lake –  muito utilizada para aplicações de Business Intelligence, sendo um repositório de grandes volumes de dados mais seguro e de estrutura mais “rígida” que o DL.

Ao contrário dos Data Lakes, o Data Warehouse não armazena dados brutos, funcionando com o schema on-write, ou seja, os dados precisam ter forma, estrutura e modelo para serem carregados no repositório. 

O Data Warehouse tem por objetivo oferecer uma visão controlada dos dados da empresa, utilizando para isso processos específicos que permitem a memorização apenas de dados que tenham sido elaborados para uma finalidade bem específica dentro do plano de negócios. Normalmente são aplicados a sistemas como CRM e ERP e são ferramentas para Análise de Big Data.

Diferenças entre DW e DL

Para simplificar, elaboramos a tabela comparativa a seguir que analisa ambas as formas de armazenamento de dados:

ETL e ELT: o que Data Lake e Data Warehouse tem a ver com isso?

Os Data Warehouses, desde seu surgimento são acompanhados pela sigla ETL. Esse conjunto de letras significa Extração, Transformação e Carregamento/Carga (do inglês, Extract, Transform and Load) e é o processo pelo qual os dados são inseridos nos Data Warehouses.

Esse processo determina que os dados devem ser extraídos de suas fontes geradoras, posteriormente devem ser transformados, ou seja, devem ganhar forma, modelo e estrutura e por fim, carregados dentro dos DW. Na prática, seria a importação de um arquivo .cvs em um banco de dados, através de ferramentas como o SQL Server Integration Services os dados seriam transformados em tipos aceitos por outros bancos de dados e por fim, seriam carregados no DW. 

Porém, o ETL demanda bastante tempo, uma vez que os dados só podem ser acessados após o término do processo, o qual pode demorar bastante, dependendo do volume de dados e das tecnologias envolvidas. Portanto, problemas de desempenho e disponibilidade de dados podem ser comuns em se tratando de ETL para organizações que trabalhem com um volume grande de dados. 

Já os Data Lakes funcionam a partir do processo ELT, ou seja, Extração, Carga/Carregamento e Transformação. Assim, os dados são extraídos da fonte geradora, carregados em sua forma bruta para o repositório e transformados no momento em que precisam ser visualizados/utilizados. O ELT é um processo que garante mais privacidade e compliance dos dados, limpando possíveis dados confidenciais deixados antes do carregamento dos dados em seu destino final. 

Dentro do contexto de Big Data e da velocidade dos dados, o Data Warehouse pode parecer uma tecnologia obsoleta, pois a visão limitada dos dados que ele proporciona pode também representar insights mais limitados. Ao passo que o Data Lake pode armazenar os dados conforme eles são gerados, permitindo aos Cientistas de Dados a geração mais imediata de insights amplos. 

Porém, essas tecnologias podem se complementar e integrar, formando os Data Warehouses modernos, uma solução que garante velocidade, praticidade e assegura que os insights sejam obtidos de forma rápida e muito segura.

Esclarecidos esses importantes conceitos para o funcionamento das ferramentas de análise de dados, entenda qual a importância da governança de dados na geração de insights valiosos para sua empresa.