Data Driven Marketing: como tratar os dados da suas iniciativas digitais?

Insights

O segundo episódio da nossa websérie sobre Data Driven Marketing focou em uma questão importantíssima dentro de todo o processo de Marketing Orientado a Dados: como tratar os dados das suas iniciativas digitais?

– 6 mitos e verdades sobre Mídia Programática
– Futuro da Publicidade: como as pessoas estão consumindo propagandas
– 10 motivos para você começar 2019 investindo em Programática

Antes de dar continuidade a este tópico, vale relembrar o que é o Marketing Orientado a Dados. A prática consiste em utilizar dados para desenvolver estratégias de marketing e otimizar operações fazendo uso de abordagens como pesquisa de mercado, análises, ferramentas de suporte à decisão, automação e experimento de negócios.

Dentre os benefícios do DDM, está a melhora na eficiência do funil de vendas, compra de mídia aprimorada, melhor experiência do cliente e, especialmente, a criação de um marketing personalizado.

Nesse segundo webinar, Lucas Nogueira, gerente de TI, e Luiz Claudio de Albuquerque, gerente de BI da Predicta, discutem sobre a melhor maneira de tratar estes dados. Para voltar ao primeira episódio da série, basta clicar aqui.

Data Cleasing ou Data Cleaning

Capturar os dados de usuários e potenciais clientes no meio digital é apenas o primeiro de muitos passos necessários para extrair o melhor que eles podem oferecer. É nesse momento pós captura que está inserido o Data Cleasing ou Data Cleaning.

O processo nada mais é que uma análise responsável por detectar inconsistências nos dados capturados e corrigí-los dentro de registros, tabelas ou banco de dados. Falando de uma maneira simples, é aqui que todas as “sujeiras” dos dados devem ser higienizadas para facilitar a percepção de insights.

Alguns exemplos de inconsistência de dados

>> Dados incompletos
>> Dados mal formatados
>> Dados com partes irrelevantes
>> Erros de digitação e caracteres inválidos
>> Dados que exigem padronização/enriquecimento/validação

Os estágios do Data Cleaning

Como citado acima neste artigo, o processo de limpeza dos dados é construído de uma série de etapas, que vão desde a coleta até a exportação das informações. Cada uma das 8 etapas do Data Cleaning tem papel fundamental para a qualidade final destes dados.

1 – Coleta de Dados

O primeiro passo. Coletar dados da fonte, seja ela qual for, de maneira crua, com os dados brutos.

2 – Mesclar conjunto de dados

Com os dados coletados de diferentes bases em mãos, chegou o momento de mesclá-los em uma única database para que o tratamento seja feito de maneira geral e uniforme.

3 – Reconstruir dados ausentes

Plataformas diferentes podem ter diferenças entre si no que se refere aos dados pedidos aos usuários. Informações pedidas no Facebook podem não contemplar todos os campos previstos no Google Analytics, por exemplo. Essa é a etapa de reconstruir esses dados, se possível.

4 – Padronização

Com os dados preenchidos, é preciso garantir que as informações estejam distribuídas de forma uniforme nas colunas pré estabelecidas

5 – Normalização

A estrutura de nomenclaturas e siglas presentes nos dados também devem estar normalizadas e padronizadas para que um mesmo dado não seja identificado de duas formas no momento de analisá-los.

6 – Remover Duplicidades

Com os nomes padronizados, é preciso identificar e remover ocorrências duplicadas.

7 – Verificação e Enriquecimento de Dados

Nessa etapa, voltamos às fontes de onde os dados foram capturados para comparar e validar o que está no database. Novas informações também devem ser adicionadas nesta etapa, se necessário.

8 – Exportação de Dados

A etapa final consiste em exportar os dados tratados para outra plataforma de preferência como PDF, CSV, Banco de dados.

Problemas e Desafios do Tratamento de Dados

Lidar com dados não é uma tarefa simples, especialmente quando envolve grandes quantidades de informações e variáveis de plataformas. Diante disso, é óbvio que existem problemas que podem acontecer ao longo do processo de tratamento deles. Podemos dividir esses problemas em dois cenários:

Fontes de Dado Única: dados adquiridos por apenas um canal (apenas Facebook ou apenas Campanhas de Search ou apenas Email Marketing etc)

Múltiplas Fontes de Dados: dados adquiridos por mais de um canal (Facebook + Campanhas Display + Campanhas de Search + email Marketing, por exemplo)

Cada um destes dois cenários se subdividem em outras duas categorias de problemas. Aqueles a nível de Schema (relacionados a estrutura onde o dado está inserido) e outros a nível de Data (relacionados ao próprio conteúdo do dado).

Problemas de Fontes de Dado Única a Nível de Schema

>> Design comprometido
>> valores inválidos
>> violação de identificadores únicos
>> violação de integridade referencial

Problemas de Fontes de Dado Única a Nível de Data Level

>> Input de dados
>> erro de escrita
>> redundância
>> valores contraditórios
>> problemas de encoding
>> valores mesclados

Problemas de Fontes Múltiplas a Nível de Schema

>> Modelo de dados heterogêneo
>> conflito de colunas e estruturas

Problemas de Fontes Múltiplas a Nível de Data Level

>> Dados duplicados, inconsistentes e contraditórios
>> agregação colunar inconsistente
>> agregação temporal inconsistente

Ferramentas do Google Cloud Platform

Como foi dito no primeiro Webinar da série sobre Data Driven Marketing, a Google Cloud Platform é uma aliada fundamental não apenas para armazenar os dados, mas também por oferecer uma série de ferramentas de tratamento deles.

Para essa etapa do processo, vamos realçar 3 delas: o Cloud Dataprep, o Cloud Dataflow e o Cloud Dataproc. O Dataprep e o DataFlow atuam em conjunto, enquanto o Dataproc é um serviço de nuvem muito mais complexo. Vamos entender um pouco mais sobre o papel de cada um.

Cloud Dataprep

É uma ferramenta inserida no Cloud que permite a limpeza de dados sem a necessidade de qualquer tipo de código ou software instalado. A sua capacidade de interatividade faz a distribuição dos dados de maneira inteligente e atua de acordo com as ações que você faz na interface do usuário.

Cloud DataFlow

Oferecendo desde detecção de fraudes até análise de sequência de cliques, o DataFlow é um serviço de aprimoramento de dados em tempo real e em lotes. Ele tem integração com o SDK do Apache Bean e pode trabalhar em parceria com o DataPrep.

Cloud DataFlow

Com uma execução um tanto quanto complexa, o DataProc permite a criação de clusters do Apache Spark e do Apache Hadoop de forma simples e rápida. Ações que antes demoravam horas são possibilitadas em segundos, otimizando o tempo do time de BI.

Data Cleasing ou Data Cleaning

Alguns exemplos de inconsistência de dados

Os estágios do Data Cleaning

1 – Coleta de Dados

2 – Mesclar conjunto de dados

3 – Reconstruir dados ausentes

4 – Padronização

5 – Normalização

6 – Remover Duplicidades

7 – Verificação e Enriquecimento de Dados

8 – Exportação de Dados

Problemas e Desafios do Tratamento de Dados

Problemas de Fontes de Dado Única a Nível de Schema

Problemas de Fontes de Dado Única a Nível de Data Level

Problemas de Fontes Múltiplas a Nível de Schema

Problemas de Fontes Múltiplas a Nível de Data Level

Ferramentas do Google Cloud Platform

Cloud Dataprep

Cloud DataFlow

Cloud DataFlow

Assista ao Webinar completo abaixo:

Related Posts

Sleeping Giants reacende discussões sobre fake news e brand safety; saiba como a Predicta está trabalhando para preservar seus anunciantes

Data Lake: o que é e quais as vantagens para o Marketing?

Data Warehouse: tudo que você precisa saber e 5 passos de como construir