O segundo episódio da nossa websérie sobre Data Driven Marketing focou em uma questão importantíssima dentro de todo o processo de Marketing Orientado a Dados: como tratar os dados das suas iniciativas digitais?
Antes de dar continuidade a este tópico, vale relembrar o que é o Marketing Orientado a Dados. A prática consiste em utilizar dados para desenvolver estratégias de marketing e otimizar operações fazendo uso de abordagens como pesquisa de mercado, análises, ferramentas de suporte à decisão, automação e experimento de negócios.
Dentre os benefícios do DDM, está a melhora na eficiência do funil de vendas, compra de mídia aprimorada, melhor experiência do cliente e, especialmente, a criação de um marketing personalizado.
Nesse segundo webinar, Lucas Nogueira, gerente de TI, e Luiz Claudio de Albuquerque, gerente de BI da Predicta, discutem sobre a melhor maneira de tratar estes dados. Para voltar ao primeira episódio da série, basta clicar aqui.
Data Cleasing ou Data Cleaning
Capturar os dados de usuários e potenciais clientes no meio digital é apenas o primeiro de muitos passos necessários para extrair o melhor que eles podem oferecer. É nesse momento pós captura que está inserido o Data Cleasing ou Data Cleaning.
O processo nada mais é que uma análise responsável por detectar inconsistências nos dados capturados e corrigí-los dentro de registros, tabelas ou banco de dados. Falando de uma maneira simples, é aqui que todas as “sujeiras” dos dados devem ser higienizadas para facilitar a percepção de insights.
Alguns exemplos de inconsistência de dados
>> Dados incompletos
>> Dados mal formatados
>> Dados com partes irrelevantes
>> Erros de digitação e caracteres inválidos
>> Dados que exigem padronização/enriquecimento/validação
Os estágios do Data Cleaning
Como citado acima neste artigo, o processo de limpeza dos dados é construído de uma série de etapas, que vão desde a coleta até a exportação das informações. Cada uma das 8 etapas do Data Cleaning tem papel fundamental para a qualidade final destes dados.
1 – Coleta de Dados
O primeiro passo. Coletar dados da fonte, seja ela qual for, de maneira crua, com os dados brutos.
2 – Mesclar conjunto de dados
Com os dados coletados de diferentes bases em mãos, chegou o momento de mesclá-los em uma única database para que o tratamento seja feito de maneira geral e uniforme.
3 – Reconstruir dados ausentes
Plataformas diferentes podem ter diferenças entre si no que se refere aos dados pedidos aos usuários. Informações pedidas no Facebook podem não contemplar todos os campos previstos no Google Analytics, por exemplo. Essa é a etapa de reconstruir esses dados, se possível.
4 – Padronização
Com os dados preenchidos, é preciso garantir que as informações estejam distribuídas de forma uniforme nas colunas pré estabelecidas
5 – Normalização
A estrutura de nomenclaturas e siglas presentes nos dados também devem estar normalizadas e padronizadas para que um mesmo dado não seja identificado de duas formas no momento de analisá-los.
6 – Remover Duplicidades
Com os nomes padronizados, é preciso identificar e remover ocorrências duplicadas.
7 – Verificação e Enriquecimento de Dados
Nessa etapa, voltamos às fontes de onde os dados foram capturados para comparar e validar o que está no database. Novas informações também devem ser adicionadas nesta etapa, se necessário.
8 – Exportação de Dados
A etapa final consiste em exportar os dados tratados para outra plataforma de preferência como PDF, CSV, Banco de dados.
Problemas e Desafios do Tratamento de Dados
Lidar com dados não é uma tarefa simples, especialmente quando envolve grandes quantidades de informações e variáveis de plataformas. Diante disso, é óbvio que existem problemas que podem acontecer ao longo do processo de tratamento deles. Podemos dividir esses problemas em dois cenários:
Fontes de Dado Única: dados adquiridos por apenas um canal (apenas Facebook ou apenas Campanhas de Search ou apenas Email Marketing etc)
Múltiplas Fontes de Dados: dados adquiridos por mais de um canal (Facebook + Campanhas Display + Campanhas de Search + email Marketing, por exemplo)
Cada um destes dois cenários se subdividem em outras duas categorias de problemas. Aqueles a nível de Schema (relacionados a estrutura onde o dado está inserido) e outros a nível de Data (relacionados ao próprio conteúdo do dado).
Problemas de Fontes de Dado Única a Nível de Schema
>> Design comprometido
>> valores inválidos
>> violação de identificadores únicos
>> violação de integridade referencial
Problemas de Fontes de Dado Única a Nível de Data Level
>> Input de dados
>> erro de escrita
>> redundância
>> valores contraditórios
>> problemas de encoding
>> valores mesclados
Problemas de Fontes Múltiplas a Nível de Schema
>> Modelo de dados heterogêneo
>> conflito de colunas e estruturas
Problemas de Fontes Múltiplas a Nível de Data Level
>> Dados duplicados, inconsistentes e contraditórios
>> agregação colunar inconsistente
>> agregação temporal inconsistente
Ferramentas do Google Cloud Platform
Como foi dito no primeiro Webinar da série sobre Data Driven Marketing, a Google Cloud Platform é uma aliada fundamental não apenas para armazenar os dados, mas também por oferecer uma série de ferramentas de tratamento deles.
Para essa etapa do processo, vamos realçar 3 delas: o Cloud Dataprep, o Cloud Dataflow e o Cloud Dataproc. O Dataprep e o DataFlow atuam em conjunto, enquanto o Dataproc é um serviço de nuvem muito mais complexo. Vamos entender um pouco mais sobre o papel de cada um.
Cloud Dataprep
É uma ferramenta inserida no Cloud que permite a limpeza de dados sem a necessidade de qualquer tipo de código ou software instalado. A sua capacidade de interatividade faz a distribuição dos dados de maneira inteligente e atua de acordo com as ações que você faz na interface do usuário.
Cloud DataFlow
Oferecendo desde detecção de fraudes até análise de sequência de cliques, o DataFlow é um serviço de aprimoramento de dados em tempo real e em lotes. Ele tem integração com o SDK do Apache Bean e pode trabalhar em parceria com o DataPrep.
Cloud DataFlow
Com uma execução um tanto quanto complexa, o DataProc permite a criação de clusters do Apache Spark e do Apache Hadoop de forma simples e rápida. Ações que antes demoravam horas são possibilitadas em segundos, otimizando o tempo do time de BI.
Assista ao Webinar completo abaixo: