Seus dados parecem corretas?

A maioria dos conjuntos de dados vêm com algum tipo de metadados,

que é essencialmente uma descrição dos dados no arquivo. Metadados normalmente inclui descrições dos formatos, alguma indicação de quais são os valores em cada campo de dados, eo que significam esses valores.

Quando você se depara com um novo conjunto de dados, nunca tomar os metadados pelo valor de face. A própria natureza do big data exige que os sistemas que o geram são mantidos em funcionamento, tanto quanto possível. Por esta razão, atualizar os metadados para esses sistemas quando as mudanças forem implementadas nem sempre é uma prioridade. Você precisa confirmar que os dados realmente é que as reivindicações de metadados.

Verificar as suas fontes

Por mais óbvio que possa parecer, é importante que você tem fé em que os seus dados são provenientes. Isto é particularmente importante quando você está comprando de dados. Milhares de fornecedores lá fora, oferecem todos os tipos imagináveis ​​de dados. E eles não são todos de igual credibilidade.

Antes de adquirir os dados, tente entender exatamente onde e como o fornecedor está a recolher-lo. Mistério e imprecisão são bandeiras vermelhas.

Não tome fornecedores em sua palavra. Não confie apenas em lançamentos de satisfação do cliente sobre as referências a sites ou clientes fornecidos pelo fornecedor. Se possível, tente rastrear alguém que está usando ou usou os dados.

Se os seus dados é proveniente de sistemas internos, ainda é importante para avaliar as fontes. Diferentes sistemas têm finalidades diferentes e, portanto, concentrar-se em dados diferentes. Eles também podem coletar dados em momentos diferentes.

Por exemplo, não é incomum que algumas cadeias de hotel para fazer reservas em um sistema separado do que eles usam na recepção quando os cheques de clientes em. É possível que o hóspede pode receber uma oferta de desconto entre reserva e check-in . Isto significa que a tarifa no sistema de reservas pode não coincidir com a taxa no sistema de recepção. Além do mais, a reserva pode ter cancelado e nunca fazê-lo para a recepção!

Agora, suponha que você está realizando uma análise das receitas de hotéis pela cidade. É bastante importante que você saiba que seus dados tarifa do quarto está sendo originada a partir do sistema de recepção, em vez do sistema de reservas. Mas e se você está tentando analisar quantas reservas foram gerados por Super Bowl comercial da sua empresa? Neste caso, você quer ver os dados do sistema de reservas.

O exemplo ilustra que mesmo Hotel dados intrinsecamente limpas pode ser problemático. Mesmo que os dados é preciso e exatamente o que ela pretende ser, o tempo pode ser um problema. Os dados muda ao longo do tempo.

Verificando formatos

Como mencionado anteriormente neste capítulo, uma das coisas que seus metadados irá fornecer para você é alguma indicação de como os dados são formatados. De formatado, queremos dizer como cada elemento de dados em particular parece. "Código do Produto" é um personagem ou numeral? É "Data de Início" uma data ou é realmente um carimbo de data e hora?

Os tipos de dados são importantes na análise estatística porque eles ditam que as estatísticas e os procedimentos estatísticos podem ser aplicados a quais elementos de dados. Se você tentar tirar o valor médio de um campo de caracteres como "Nome", você está indo para obter uma mensagem de erro cada vez.

Normalmente, este tipo de metadados é bastante precisa. É geralmente armazenado pelo sistema que contém os dados e pode ser gerado automaticamente. Verificando os formatos é geralmente bastante simples. Tal verificação é essencialmente um subproduto da validação dos intervalos de dados discutidos na seção seguinte. Mas há casos em que pode ser um pouco mais difícil.

Temos visto um tal cenário mais vezes do que gostaríamos de recordar. Acontece por vezes que, quando um sistema é projetado em primeiro lugar, a equipe de desenvolvimento tenta colocar alguma flexibilidade nas estruturas de dados para acomodar futuros aperfeiçoamentos. Às vezes, eles apenas adicionar um monte de colunas de dados vazios (e largas) alfa-numérico para o final de cada registro. Estas colunas auxiliares, inicialmente, não são utilizados para qualquer coisa.

Os analistas sempre errar do lado de pedir mais dados, e não menos - com frequência, todos de dados, em vez de alguns. Esse fato, combinado com a necessidade de obter os dados rapidamente, às vezes resulta em uma despejo de dados. Esta descarga inclui geralmente as colunas auxiliares. Nestes casos, os metadados lhe diz algo como "Campos 1-11" são formatados como "200 caracteres alfanuméricos."

Tal informação é praticamente inútil. Para dar sentido a um campo de dados como este, você praticamente tem que sujar as mãos. Não há muita coisa que você pode fazer, exceto página através de algumas dezenas de registros e tentar dar um palpite informado sobre o que está realmente no campo. Na maioria dos casos, esses campos tendem a ser vazio. Mas não sempre. A boa notícia é que, se o campo está realmente sendo usado, você deve ser capaz de encontrar um programador em algum lugar que sabe o que está sendo utilizado.

Typecasting seus dados

Um dos passos mais importantes na realização de uma análise estatística é ter certeza de que seus dados é o que pretende ser. Os procedimentos estatísticos invariavelmente irá falhar se você não fornecer-lhes informação válida sobre os formatos de dados. Mas estes procedimentos são em grande parte cega a problemas com a validade dos dados.

Entender como um campo de dados é formatado não é suficiente. Antes de ligar um conjunto de dados ao longo de um procedimento estatístico, você precisa entender o que os dados realmente está em cada um dos campos que você está usando.

A maioria dos dados cai em uma das quatro categorias: nominal, ordinal, intervalo e razão. O tipo de dados determina que tipo de estatísticas e os procedimentos indicados podem ser aplicados a determinados campos de dados. Você não pode ter uma média de um campo como "Last Name", por exemplo.

Confundindo tipos de dados com formatos de dados é fácil (e muito comum). Saber se um campo de dados é um personagem, inteiro, ou não contínua não dizer-lhe o tipo de dados.

campos de caracteres são por vezes usados ​​como espaços reservados para dados que podem ser capturados em versões futuras do sistema. Não há nada para impedir que tal campo seja usado para capturar os dados numéricos monetários ou outros.

O tipo de dados mais comum erro envolve assumindo que um campo numérico, particularmente um campo de valores inteiros, na verdade, contém numérica ordinal dados. É extremamente comum para as empresas a utilizar códigos numéricos (nominal dados) para representar os produtos, regiões, lojas, e várias outras entidades.

códigos de voo das companhias aéreas são um exemplo. regiões do Censo são outro. Mesmo cartão de crédito e da Segurança Social números são normalmente armazenados como inteiros. Mas todas estas entidades são meramente identificadores. Eles são nominal variáveis. o número de cartão de crédito médio na carteira de um banco é uma estatística sem sentido.

menu