8 Melhores Práticas de Preparação de Dados

Computadores e Software / Big Data / Ciência dados

pacotes de software estatísticos são extremamente poderosos nos dias de hoje, mas eles não podem superar os dados de má qualidade. A seguir está uma lista de coisas que você precisa fazer antes de ir para fora a construção de modelos estatísticos.

Verifique os formatos de dados
Verifique os tipos de dados
Gráficos com dados
Verificar a exactidão dos dados
Identificar casos anómalos
Lidar com valores em falta
Verifique suas suposições sobre como os dados são distribuídos
Fazer backup e documentar tudo o que fazemos

Verifique os formatos de dados

Sua análise começa sempre com um arquivo de dados brutos. arquivos de dados brutos vêm em muitas formas e tamanhos diferentes. dados de mainframe é diferente de dados do PC, os dados planilha é formatado de forma diferente do que os dados da web, e assim por diante. E na era dos grandes dados, você certamente irá ser confrontado com dados de uma variedade de fontes. Seu primeiro passo na análise de seus dados é ter certeza que você pode ler os arquivos que você está dado.

Você precisa realmente olhar para o que cada campo contém. Por exemplo, não é sábio confiar que só porque um campo está listada como um campo de caracteres, na verdade ele contém dados de caracteres.

Verifique os tipos de dados

Todos os dados cai em uma das quatro categorias que afetam o tipo de estatísticas você pode apropriadamente aplicar-lhe:

dados nominais é essencialmente apenas um nome ou um identificador.
dados ordinal coloca registros em ordem do menor para o maior.
dados de intervalo representa os valores em que as diferenças entre eles são comparáveis.
Rácio de dados é como dados de intervalo, com excepção de que também permite a um valor de 0.

É importante entender quais categorias seus dados cai antes de alimentá-lo para o software estatístico. Caso contrário, corre o risco de acabar com o jargão perfeitamente razoável para o futuro.

Gráficos com dados

Obtendo uma noção de como os dados são distribuídos é importante. Você pode executar procedimentos estatísticos até que você esteja azul na cara, mas nenhum deles vai lhe dar o máximo de conhecimento sobre o que os seus dados se parece como um gráfico simples.

Verificar a exactidão dos dados

Uma vez que você está confortável que os dados são formatados da maneira que você quiser, você ainda precisa ter certeza de que é preciso e que não faz sentido. Este passo requer que você tenha algum conhecimento da área de assunto que está a trabalhar.

Não há realmente uma abordagem de corte e seco para verificar a precisão dos dados. A idéia básica é formular algumas propriedades que você acha que os dados devem expor e testar os dados para ver se essas propriedades segurar. São os preços das ações sempre positivo? Será que todos os códigos de produto corresponder à lista de localidades válidas? Essencialmente, você está tentando descobrir se os dados realmente é o que você foi dito que é.

identificar casos anómalos

Outliers são pontos de dados que estão fora de sintonia com o resto dos dados. Eles são ou valores muito grandes ou muito pequenas em comparação com o resto do conjunto de dados.

Outliers são problemáticas porque pode comprometer seriamente as estatísticas e os procedimentos estatísticos. Um único outlier pode ter um enorme impacto sobre o valor da média. Porque a média é suposto representar o centro dos dados, em certo sentido, este outlier torna o inútil média.

Quando confrontados com valores extremos, a estratégia mais comum é para excluí-los. Em alguns casos, porém, você pode querer levá-los em conta. Nestes casos, geralmente é desejável fazer a sua análise duas vezes - uma vez com valores discrepantes incluído e uma vez com outliers excluídos. Isto permite-lhe avaliar qual método dá resultados mais úteis.

Lidar com valores em falta

Os valores em falta são um dos problemas de dados mais comuns (e irritante) que irá encontrar. Seu primeiro impulso pode ser a queda de registros com valores em falta a partir de sua análise. O problema com isto é que os valores em falta não são muitas vezes apenas aleatórias falhas de dados pequenos.

Verifique suas suposições sobre como os dados são distribuídos

Muitos procedimentos estatísticos dependem da hipótese de que os dados são distribuídos de uma determinada maneira. Se essa suposição deixa de ser o caso, a precisão de suas previsões sofre.

A hipótese mais comum para as técnicas de modelagem discutidas neste livro é que os dados são normalmente distribuídos.

Ou não. Nos casos em que os dados não são distribuídos como você precisa que ele seja, nem tudo está necessariamente perdido. Há uma variedade de formas de transformar dados para obter a distribuição na forma que você precisar dele.

Uma das melhores maneiras de verificar a precisão de um modelo estatístico é realmente testá-lo contra os dados uma vez que é construído. Uma maneira de fazer isso é dividir aleatoriamente o conjunto de dados em dois arquivos. Você pode chamar esses arquivos Análise e Teste, respectivamente.

É necessário dividir os dados aleatoriamente para ser eficaz. Você não pode simplesmente dividir o conjunto de dados para a metade superior e metade inferior, por exemplo. Quase todos os arquivos de dados são classificadas de alguma forma - por data, se nada mais. Isto introduz padrões sistemáticos que lhe dão diferentes partes do arquivo diferentes propriedades estatísticas. Quando você dividir o arquivo aleatoriamente, você dá a cada registro de uma chance igual de ser em qualquer arquivo. Figurativamente, você está lançando uma moeda para cada registro para decidir qual arquivo ele vai para. Aleatoriedade dá ambos os ficheiros as mesmas propriedades estatísticas como os dados originais.

Uma vez que você dividir o conjunto de dados, anular o arquivo de teste. Em seguida, avance para construir o seu modelo preditivo utilizando o arquivo de Análise. Uma vez que o modelo é construído, aplicá-lo para o arquivo de teste e ver como ele faz.

Testando modelos desta forma ajuda a proteger contra um fenômeno conhecido como over-fitting. Essencialmente, é possível para os procedimentos estatísticos para memorizar o arquivo de dados, em vez de descobrir relações significativas entre as variáveis. Se ocorrer montagem over-, o modelo irá testar muito mal contra o arquivo de teste.

Fazer backup e documentar tudo o que fazemos

Como o software de estatística está começando a ser tão simples de usar, é um pedaço de bolo para começar a gerar relatórios e gráficos, para não mencionar os arquivos de dados. Você pode executar procedimentos literalmente com o toque de um botão. É possível gerar várias dezenas de gráficos com base em diferentes transformações de dados em uma questão de poucos minutos. Isso faz com que seja muito fácil perder o controle do que você tem feito, e por quê.

É importante certificar-se de que você mantenha um registro escrito do que você está fazendo. Os gráficos devem ser rotulados com o nome (e versão) dos dados que foi usado para criá-los. Os procedimentos estatísticos que você construir precisam ser salvos e documentado.

Também é importante fazer backup de seus arquivos de dados. No decurso da sua análise, você provavelmente irá criar várias versões de seus dados que refletem várias correções e transformação de variáveis. Você deve salvar os procedimentos que criaram estas versões. Eles também devem ser documentados de forma que descreve quais as transformações que você fez e por quê.

Documentação não é de ninguém tarefa favorita, mas falo por experiência própria quando nós recomendamos que você não confiar em sua memória quando se trata de seus projetos de análise.

Ao trabalhar com as etapas descritas acima, você maximizar a confiabilidade de seus modelos estatísticos. Em muitos casos, o trabalho de preparação é, na verdade, mais demorada do que a construção do modelo real. Mas é necessário. E você vai agradecer a si mesmo no final para trabalhar com ele metodicamente.