Como limpar dados de Análise Preditiva

Antes de executar uma análise preditiva, você vai precisar para se certificar de que os dados estão limpos de coisas estranhas antes que você possa usá-lo em seu modelo. Isso inclui encontrar e corrigir quaisquer registros que contêm valores errados, e tentando preencher eventuais valores em falta. Você também terá que decidir se deseja incluir registros duplicados (duas contas de clientes, por exemplo).

O objetivo geral é para garantir a integridade das informações que você está usando para construir o seu modelo preditivo. Preste atenção especial à integralidade, exactidão e actualidade dos dados.

É útil para criar estatísticas descritivas (características quantitativas) para vários campos, tais como cálculo min e max, verificando distribuição de frequência (Quantas vezes ocorre algo) e verificar os intervalos esperados. Executando uma verificação regular pode ajudar a sinalizar quaisquer dados que está fora da faixa esperada para uma investigação mais aprofundada. Todos os registros que mostram aposentados com datas de nascimento na década de 1990 podem ser sinalizados por este método.

Além disso, o cruzamento da informação é importante para que você tenha certeza que os dados são precisos. Para uma análise mais profunda das características dos dados ea identificação da relação entre os registros de dados, você pode fazer uso de perfis de dados (Analisando a disponibilidade de dados e coleta de estatísticas sobre a qualidade dos dados), e ferramentas de visualização.

Os dados em falta pode ser devido ao facto de que a informação particular não foi gravado. Nesse caso, você pode tentar preencher tanto quanto você pode- padrões adequados podem ser facilmente adicionados para preencher os espaços em branco de certos campos.

Por exemplo, para pacientes em uma maternidade enfermaria do hospital onde o campo de gênero está faltando um valor, o aplicativo pode simplesmente preenchê-lo como feminino. Para essa matéria, para qualquer homem que foi internado em um hospital com um registro que faltava para o estado de gravidez, esse registro pode igualmente ser preenchido como não aplicável.

A CEP falta de um endereço pode ser inferida a partir do nome da rua e cidade fornecido neste endereço.

Nos casos em que a informação é desconhecida ou não podem ser inferidas, então você precisa usar valores de outros de um espaço em branco para indicar que os dados está ausente, sem afectar a exactidão da análise. Um espaço em branco nos dados pode significar várias coisas, a maioria deles não é bom ou útil. Sempre que você pode, você deve especificar a natureza desse vazio por enchimento lugar significativo.

Assim como é possível definir uma rosa em um campo de milho como uma erva daninha, outliers podem significar coisas diferentes para diferentes análises. É comum para alguns modelos a ser construída exclusivamente para rastrear esses valores discrepantes e bandeira deles.

modelos de detecção de fraude e da vigilância atividades criminosas estão interessados ​​nesses valores extremos, que em tais casos indicam algo indesejado ter lugar. Então, mantendo os valores extremos no conjunto de dados em casos como estes é recomendado. No entanto, quando valores atípicos são considerados anomalias dentro dos dados - e só vai distorcer as análises e levar a resultados errados - removê-los de seus dados.

Duplicação nos dados também pode ser útil ou um nuisance- parte dela pode ser necessário, pode indicar valor, e pode reflectir um estado precisa dos dados. Por exemplo, um registro de um cliente com várias contas pode ser representado com várias entradas que são (tecnicamente, pelo menos) duplicado e repetitivos dos mesmos registros.

Da mesma forma, quando os registros duplicados não contribuem valor para a análise e não são necessários, em seguida, removê-los pode ser de grande valor. Isto é especialmente verdadeiro para grandes conjuntos de dados em que a remoção de registos duplicados podem simplificar a complexidade dos dados e reduzir o tempo necessário para análise.

Você pode preventivamente evitar que dados incorretos de entrar em seus sistemas através da adopção de alguns procedimentos específicos:

  • Instituto controlos de qualidade e validação de dados para todos os dados que estão sendo coletados.

  • Permita que seus clientes para validar e auto-corrigir seus dados pessoais.

  • Fornecer aos seus clientes com possíveis e esperados valores para escolher.

  • Rotineiramente executar verificações sobre a integridade, consistência e precisão dos dados.

menu