Data Lake: o que é e quais as vantagens para o Marketing?
Como sugere o próprio nome, o data lake, funciona como um grande lago cheio de dados. É ideal para quem precisa abrigar uma imensa quantidade de informações brutas, como arquivos e bancos de dados, armazenar dados para pesquisas futuras e fornecer a eles de forma democrática.
O que é um data lake?
Trata-se de um repositório que armazena dados não estruturados, que foram gravados do jeito que vieram. Isso inclui arquivos de mídia, como fotos, vídeos e áudio, dashboards, dados em tempo real, analytics, planilhas, informações de machine learning, enfim, qualquer tipo de dado.
Os dados abrigados no data lake não passaram pelo processo de tratamento de dados, já que sua proposta é armazenar e prover acesso a um número elevadíssimo de dados brutos de categorias variadas em um só lugar. Em outras palavras: simplificação na forma como trabalhar com dados não estruturados.
Grosso modo, um data lake é um banco não estruturado onde são armazenados dados de diversas fontes. Assim, podemos entender os data lakes como grandes planilhas não estruturadas, com inúmeras linhas e colunas, nas quais cada célula possui um dado diferente.
Na prática, é a forma como empresas como Netflix, Google e Facebook armazenam e pesquisam enormes volumes de dados diversificados, armazenados no formato original, sem formatação prévia, que podem ser analisados em diferentes situações.
Na Google Cloud Platform, geralmente se utiliza o Google Cloud Storage (GCS) para criar um data lake. O Cloud Storage fornece armazenamento unificado de objetos para desenvolvedores e empresas em escala para exabytes de dados.
Quais as vantagens oferecidas pelo data lake?
· Flexibilidade na hora de acessar os dados, uma vez que estão todos reunidos em uma só visão;
· Fornece acesso aos dados de forma democrática. Como estão brutos, os dados podem ser compartilhados com toda a organização, por exemplo;
· Utiliza a disponibilidade de grandes quantidades de dados e algoritmos de Deep Learning, o que facilita análises de decisões em tempo real;
· Capacidade de abrigar dados de Internet das Coisas, como aqueles gerados por eletrodomésticos inteligentes.
Quando usar um data lake?
Dados os benefícios de usar um data lake, é importante ressaltar que é a opção ideal para quem precisa guardar dados para análises futuras (que ainda não foram definidas de acordo com os objetivos do negócio).
Por outro lado, o data warehouse é utilizado para abrigar dados estruturados, sob modelos pré-definidos, prontos para serem usados em relatórios e análises. Considerando essas diferenciações, o data lake não é a melhor alternativa para quem precisa de dados direcionados, tratados e de fácil visualização (no caso, o data warehouse é o recomendado) – já que esses dados precisam de tratamento mais intenso para terem alguma utilidade.
Apesar disso, os “lagos de dados” ou data lakes – em contraste com o data warehouse – dispensam necessidade de definir modelos antecipadamente, o que suprime o tempo gasto com a preparação de dados (etapa que pode levar 80% do tempo, enquanto apenas 20% é gasto analisando os dados) e não limita o escopo de perguntas que podem ser feitas com base nos dados. Isso permite que realizar qualquer cruzamento de dados – que não poderia ser feito dentro de um modelo pré-definido – levando a novos insights e gerando mais valor para os negócios.
Quero começar a usar o data lake! E agora?
O primeiro passo é construir um repositório, onde os dados são armazenados sem tratamentos, mas tagueados. Em seguida, entra em ação a etapa de destilação dos dados, na qual as informações são extraídas e analisadas – ou seja, quando os dados geram valor para o negócio.
Um erro muito comum é compreender o data lake como uma montanha de dados sem controles. Pelo contrário, esse repositório exige processos de governança que definam protocolos de segurança, normas de compliance e controle de acesso. Em tempos em que a privacidade está no foco das discussões, é imprescindível definir claramente as políticas de governança antes de permitir que qualquer usuário da empresa mergulhe nesse lago e faça suas pesquisas e correlações em busca de insights.
Para ajudar você a definir claramente a estratégia de data lake para sua empresa e ajudá-la a explorar todo o potencial desses “lagos”, a Predicta conta com profissionais especializados para apoiar a integração de dados de diversas fontes com intuito de extrair insights poderosos para seus negócios. Somos certificados pelo Google a gerenciar a Cloud Platform.
Vamos agendar uma reunião? Fale conosco pelo (11) 3463-5600 ou pelo e-mail falecom@predicta.net.