Como preparar os dados para um modelo de análise preditiva
Quando tiver definido os objectivos do modelo de análise preditiva, o próximo passo é identificar e preparar os dados que você vai usar para construir o seu modelo. A seqüência geral de passos parece com isso:
Identificar as fontes de dados.
Os dados podem estar em diferentes formatos ou residir em vários locais.
Identificar como você irá acessar os dados.
Às vezes, você precisaria para adquirir dados de terceiros ou dados pertencentes a uma divisão diferente em sua organização, etc.
Considere quais variáveis para incluir em sua análise.
Uma abordagem padrão é começar com uma vasta gama de variáveis e eliminar aqueles que não oferecem valores preditivos para o modelo.
Determinar se deve usar variáveis derivadas.
Em muitos casos, uma variável derivadas (como a relação preço-per-ganho utilizada para analisar os preços das ações) teria maior impacto direto sobre o modelo do que seria a variável cru.
Explorar a qualidade dos seus dados, buscando compreender tanto o seu estado e limitações.
A precisão das previsões do modelo está diretamente relacionada com as variáveis que você selecionar e a qualidade dos seus dados. Você gostaria de responder a algumas perguntas específicas de dados neste momento:
São os dados completos?
Será que ela tem os valores atípicos?
Será que os dados precisam de limpeza?
Você precisa preencher valores ausentes, mantê-los como eles são, ou eliminá-los por completo?
Compreender os seus dados e suas propriedades podem ajudar você a escolher o algoritmo que será mais útil na construção de seu modelo. Por exemplo:
algoritmos de regressão pode ser usada para analisar dados de séries temporais.
algoritmos de classificação pode ser utilizado para analisar dados discretos.
algoritmos de associação pode ser usado para dados com atributos correlacionados.
O conjunto de dados usado para treinar e testar o modelo deve conter informações de negócios relevantes para responder ao problema que você está tentando resolver. Se seu objetivo é (por exemplo) para determinar qual o cliente é susceptível de produzir, então o conjunto de dados que você escolher deve conter informações sobre os clientes que agitaram no passado, além de clientes que não têm.
Alguns modelos criados para dados de minas e dar sentido a suas relações subjacentes - por exemplo, aqueles construídos com algoritmos de agrupamento - não precisam ter um resultado final específico em mente.
Dois problemas surgem quando se lida com dados como você está construindo o seu modelo: underfitting e overfitting.
Underfitting
Underfitting é quando o seu modelo não consegue detectar todas as relações em seus dados. Isso geralmente é uma indicação de que variáveis essenciais - aqueles com poder preditivo - não foram incluídos na análise. Por exemplo, uma análise de ações que inclui apenas dados de um mercado de touro (onde os preços globais de ações estão subindo) não conta para crises ou bolhas que podem trazer grandes correções para o desempenho global dos estoques.
Não incluir dados que abrange tanto o touro e mercados de urso (quando os preços globais de ações estão caindo) mantém o modelo de produzir a melhor seleção de carteiras possível.
overfitting
overfitting é quando o seu modelo inclui dados que não tem poder de previsão, mas é apenas específica para o conjunto de dados que você está analisando. Barulho - variações aleatórias no conjunto de dados - pode encontrar o seu caminho para o modelo, de modo que a execução do modelo em um conjunto de dados diferente produz uma grande queda no desempenho de previsão do modelo e precisão. A barra lateral que acompanha fornece um exemplo.
Se o seu modelo executa muito bem em um conjunto de dados em particular e só fraco desempenho quando você testá-lo em um conjunto de dados diferente, overfitting suspeito.