Como testar o Modelo de Análise Preditiva
Para ser capaz de testar o modelo de análise preditiva que você construiu, você precisa dividir o conjunto de dados em dois conjuntos: treinamento e teste conjuntos de dados. Estes conjuntos de dados devem ser selecionados de forma aleatória e deve ser uma boa representação da população real.
Menu
Dados semelhantes deve ser utilizado tanto para a formação e conjuntos de dados de teste.
Normalmente, o conjunto de dados de treinamento é significativamente maior do que o conjunto de dados de teste.
Usando o conjunto de dados de teste ajuda a evitar erros, como overfitting.
O modelo de formação é executado com dados de teste para ver quão bem o modelo irá executar.
Alguns cientistas dados preferem ter um terceiro conjunto de dados que tem características semelhantes às das duas primeiras: um conjunto de dados de validação. A ideia é que se você está usando ativamente seus dados de teste para refinar seu modelo, você deve usar um separado (terceiro) Conjunto para verificar a precisão do modelo.
Ter um conjunto de dados de validação, que não foi usado como parte do processo de desenvolvimento do seu modelo, ajuda a garantir uma estimativa neutro de precisão e eficácia do modelo.
Se você construiu vários modelos usando vários algoritmos, a amostra de validação também pode ajudar a avaliar qual o modelo que melhor desempenho.
Certifique-se que você verifique o seu trabalho a desenvolver e testar o modelo. Em particular, ser cético se o desempenho ou a precisão do modelo parece bom demais para ser verdade. Os erros podem acontecer quando você menos espera. Incorretamente calcular datas para dados de séries temporais, por exemplo, pode levar a resultados errados.
Como empregar validação cruzada
Validação cruzada é uma técnica popular que você pode usar para avaliar e validar o seu modelo. O mesmo princípio da utilização de conjuntos de dados separados para testes e treinamento se aplica aqui: a dados de treinamento é usado para construir a modelagem do modelo é executada contra o conjunto de testes para prever dados que ele não tenha visto antes, que é uma forma de avaliar sua precisão .
Na validação cruzada, os dados históricos é dividido em números X de subconjuntos. Cada vez que um subconjunto é escolhido para ser utilizada como dados de teste, o restante dos subgrupos são utilizados como dados de treino. Em seguida, na próxima corrida, o antigo conjunto de teste torna-se um dos conjuntos de treinamento e um dos antigos conjuntos de treinamento torna-se o conjunto de teste.
O processo continua até que cada subconjunto de que X número de conjuntos tem sido utilizado como um conjunto de teste.
Por exemplo, imagine que você tem um conjunto de dados que você tenha dividido em 5 conjuntos numerados de 1 a 5. Na primeira corrida, você usar set 1 como o conjunto de teste e usar conjuntos de 2, 3, 4 e 5 como o conjunto de treinamento. Em seguida, na segunda corrida, você usar set 2 como o conjunto de teste e conjuntos de 1, 3, 4 e 5 como conjunto de treinamento.
Está continuar este processo até que cada subconjunto dos conjuntos 5 tem sido utilizado como um conjunto de teste.
Validação cruzada permite que você use todos os pontos de dados em seus dados históricos tanto para treinamento e testes. Esta técnica é mais eficaz do que apenas dividir seus dados históricos em dois conjuntos, usando o conjunto com o maior número de dados para treinamento, usando o outro conjunto para testes, e deixar por isso mesmo.
Quando você cross-validar seus dados, você está protegendo-se contra dados de teste escolhendo aleatoriamente que é muito fácil de prever - o que lhe daria a falsa impressão de que o seu modelo é preciso. Ou, se acontecer de você pegar dados de teste que é muito difícil de prever, você pode falsamente concluir que o seu modelo não está funcionando como você esperava.
A validação cruzada é amplamente utilizado, não só para validar a exactidão dos modelos, mas também para comparar o desempenho de múltiplos modelos.
Como equilibrar viés e variância
Viés e variância são duas fontes de erros que podem ocorrer enquanto você está construindo o seu modelo analítico.
Viés é o resultado da construção de um modelo que simplifica significativamente a apresentação das relações entre os pontos de dados nos dados históricos usados para construir o modelo.
variação é o resultado da construção de um modelo que seja explicitamente específica para os dados utilizados para construir o modelo.
Atingir um equilíbrio entre viés e variância - reduzindo a variação e tolerar algum viés - pode levar a um melhor modelo preditivo. Este trade-off normalmente leva à construção de modelos preditivos menos complexos.
Muitos algoritmos de mineração de dados foram criados para ter em conta este trade-off entre viés e variância.
Como solucionar problemas de ideias
Quando você está testando seu modelo e você encontrar-se indo a lugar nenhum, aqui estão algumas idéias para considerar que pode ajudá-lo a voltar à pista:
Sempre verifique o seu trabalho. Você pode ter esquecido algo que você assumiu foi correta, mas não é. Tais falhas poderia mostrar-se (por exemplo) entre os valores de uma variável preditiva no seu conjunto de dados, ou na pré-processamento que você aplicada aos dados.
Se o algoritmo que você escolheu não está rendendo nenhum resultado, tente outro algoritmo. Por exemplo, você experimentar vários algoritmos de classificação disponíveis e dependendo de seus dados e os objetivos do negócio de seu modelo, um dos que pode ter um melhor desempenho do que os outros.
Tente selecionar variáveis diferentes ou a criação de novas variáveis derivadas. Estar sempre à procura de variáveis que têm poderes de previsão.
consultar frequentemente com os especialistas do domínio de negócios que podem ajudá-lo a fazer sentido dos dados, selecionar variáveis, e interpretar os resultados do modelo.