Faltando valores nos dados
Um dos problemas de dados mais frequentes e messiest para lidar com falta de dados. Os arquivos podem ser incompleta porque os registros foram descartados ou um dispositivo de armazenamento cheio. Ou determinados campos de dados pode conter dados para alguns registros. O primeiro destes problemas pode ser diagnosticada por simplesmente verificar contagens ficha para ficheiros. O segundo problema é mais difícil de lidar.
Para colocá-lo em termos simples, quando você encontra um campo que contém os valores em falta, você tem duas escolhas:
Ignore isto.
Furar algo no campo.
Ignorar o problema
Em alguns casos, você pode simplesmente encontrar um único campo com um grande número de valores em falta. Se assim for, a melhor coisa a fazer é simplesmente ignorar o campo. Não incluí-lo em sua análise.
Outra maneira de ignorar o problema é ignorar o registro. Basta excluir o registro contendo os dados em falta. Isso pode fazer sentido se houver apenas alguns registros desonestos. Mas se houver vários campos de dados que contêm um número significativo de valores em falta, esta abordagem pode diminuir a sua contagem de registro para um nível inaceitável.
Outra coisa a olhar para fora antes a simples exclusão de registros de qualquer sinal de um padrão. Por exemplo, suponha que você está analisando um conjunto de dados relacionadas com os saldos de cartões de crédito em todo o país. Você pode muito bem encontrar um monte de registros mostrando $ 0,00 saldos (talvez cerca de metade dos registros). Esta não é em si uma indicação de dados em falta. No entanto, se todos os registros de, digamos, Califórnia estão mostrando $ 0,00 saldos, que indica um potencial problema de valores em falta. E não é aquele que iria ser utilmente resolvido por excluir todos os registros do maior estado do país. Neste caso, é provavelmente uma questão de sistemas e indica que um novo arquivo deve ser criado.
Em geral, a exclusão de registros é uma tarefa fácil, mas não é o ideal, solução para os problemas de valor em falta. Se o problema é relativamente pequeno e não há nenhum padrão discernível às omissões, então ele pode ser bom para descartar os registros ofensivos e seguir em frente. Mas, frequentemente, uma abordagem mais intelectual é justificada.
Preenchendo os dados em falta
Preenchendo os dados em falta equivale a fazer um palpite sobre o que teria sido nesse campo. Há boas e más maneiras de fazer isso. Uma simples (mas ruim) abordagem é substituir os valores em falta com a média dos que não ausentes. Em campos não-numéricos, você pode ser tentado para preencher os registros perdidos com o valor mais comum nos outros registros (o modo).
Estas abordagens são, infelizmente, ainda frequentemente utilizados em algumas aplicações de negócios. Mas eles estão amplamente considerada por estatísticos como más idéias. Por um lado, toda a ponto de fazer a análise estatística é encontrar dados que diferencia um resultado de outro. Ao substituir todos os registros que faltam com o mesmo valor, você não tem diferenciado nada.
A abordagem mais intelectual é tentar encontrar uma maneira de prever de forma significativa o valor deve ser preenchido em cada registro que está faltando um valor. Trata-se de olhar para os registros completos e tentando encontrar pistas sobre o que o valor em falta pode ser.
Suponha que você está analisando um arquivo demográfica para prever compradores prováveis de um de seus produtos. Nesse arquivo que você tem, entre outras áreas, a informação sobre o estado civil, número de filhos e número de automóveis. Por alguma razão, o número de campo de automóveis está ausente em um terço dos registos.
Ao analisar os outros dois campos - estado civil e número de filhos - você pode descobrir alguns padrões. Único pessoas tendem a ter um carro. As pessoas casadas sem filhos tendem a ter dois carros. As pessoas casadas com mais de um filho pode ser mais propensos a ter três carros. Desta forma, você pode adivinhar os valores ausentes de uma forma que realmente diferencia os registros. Mais informações sobre esta abordagem para vir.
Não é um termo geral em estatísticas e dados de processamento que se refere a dados questionáveis. O termo barulhento é usado para descrever dados que não é confiável, corrupto, ou de outra forma menos de intocada. Falta de dados é apenas um exemplo disso. Uma descrição detalhada das técnicas de limpeza de dados ruidosos, em geral, está além do escopo deste livro. Na verdade, esta é uma área ativa de pesquisa em teoria estatística. O fato de que todo o ruído não é tão fácil de detectar como valores em falta torna problemático para lidar com eles.