Lidar com problemas de qualidade em seus dados relacionados a clientes

Como você cavar os dados do cliente para construir campanhas de marketing ou procurar insights sobre sua base de clientes, você vai inevitavelmente ser confrontada com a má qualidade dos dados, às vezes chamado dados sujos

. Seu banco de dados do cliente é construído usando feeds de dados a partir de uma variedade de fontes diferentes, incluindo os sistemas internos da empresa, bem como provedores de dados de terceiros. Os dados a partir desses sistemas varia em qualidade, frescor e consistência.

Nomes e endereços podem ser formatados de forma diferente em diferentes sistemas. E eles mudam ao longo do tempo, e é por isso mantê-los atualizados é tão importante.

Mas esse tipo de variação de dados não é exclusivo para informações de contato do cliente. Seu banco de dados está cheio de potenciais minas de qualidade de dados. Ao pensar de forma crítica sobre os dados que você está analisando, você pode evitar a interpretação falsa ou enganosa de dados dos seus clientes.

Retire o (dados) de lixo

A abordagem ideal é analisar cuidadosamente os seus dados antes mesmo de ser carregado para o seu banco de dados. Dessa forma, você pode corrigir alguns problemas antes que eles podem atrapalhar a sua análise. Em alguns casos, pode ser necessário para realmente rejeitar os dados do seu banco de dados se ele não atender a certos padrões de qualidade.

Você precisa analisar cuidadosamente cada elemento de dados individual. Verifique se ele está no formato correto, certamente. Mas também verificar que cada valor realmente faz sentido. Estes formatos e valores razoáveis ​​são diferentes para cada elemento de dados.

Por exemplo, há claramente um problema se você tem um monte de clientes cuja idade é listado como 99. Isso é provavelmente uma indicação de que a idade do cliente não estava disponível, e 99 foi um valor padrão no sistema de origem. Este tipo de coisa acontece frequentemente com os dados do registo de dinheiro relacionados às compras de álcool. Os caixas são forçados a introduzir a data de nascimento para completar a transação, mas que muitas vezes nem sequer fazer a pergunta. Eles simplesmente introduzir algum valor padrão.

A idade é algo que você pode querer usar para tirar médias ou fazer outros cálculos. O fato de que esse valor padrão parece superficialmente como uma idade real significa que ele pode estragar esses cálculos. Neste caso, é uma idéia muito melhor para substituir o valor padrão com um valor em falta ou nulo valor. Praticamente todos os bancos de dados permitem este tipo de valor.

A maioria dos motores de relatórios e algumas técnicas de modelagem estatística são bastante hábeis em lidar com esses valores nulos. Algumas técnicas estatísticas, no entanto, exigem que você substituir esses valores em falta com algum valor médio ou excluir os registros completamente. Em ambos os casos, sabendo que está faltando o valor é melhor do que erroneamente assumindo que o valor é significativa.

Tenha cuidado com os dados obsoletos

idade do cliente é um bom exemplo de um outro problema que você pode encontrar. O tempo marcha, como diz o ditado. Se você colocou um registro de cliente 5 anos atrás, que mostrou o cliente como sendo 35 anos de idade, essa informação não é mais preciso. Sua primeira inclinação deve ser para resolver o problema através da construção de um processo para atualizar as idades de clientes a cada ano. Isso funciona na teoria, mas na prática ele pode ficar bastante complicado. Cada vez que você atualizar a idade, você tem que olhar para onde os dados vieram e quando.

Uma abordagem melhor consiste em armazenar os dados de tal forma que o problema desaparece. Você pode facilmente converter a idade de um ano do nascimento quando você inicialmente carregar o registro. Você, então, criar um outro elemento de dados que contém essencialmente o valor ano corrente ano menos nascimento. Voil # 225 - nenhuma manutenção necessária. O motor de banco de dados sempre sabe em que ano estamos, de modo que este valor de idade nunca precisará ser atualizado.

Ao pensar criticamente sobre seus dados antes que ele seja carregado em seu banco de dados, você pode evitar muitos problemas de qualidade de dados. Mas não fique complacente. sistemas de origem mudar ao longo do tempo, e essas mudanças causam alterações a jusante na forma como os dados são passados ​​para o banco de dados do cliente. É uma boa ideia para auditar de forma proativa seus dados de vez em quando para verificar se há dados suspeitos.

menu