Construção de modelos com regressão passo a passo

Uma das razões (mas não a única razão) para a execução de uma análise de regressão múltipla é para chegar a uma fórmula previsão para alguma variável desfecho, com base em um conjunto de variáveis ​​de previsão disponíveis. Idealmente, você gostaria que essa fórmula seja parcimonioso - ter como poucas variáveis ​​quanto possível, mas ainda fazer boas previsões.

Então, como é que você escolher, de entre um grupo grande de variáveis ​​de previsão, o menor subconjunto necessário para fazer um bom modelo de previsão? Isso é chamado de # 147-modelo de construção # 148- problema, que é um tema de pesquisa ativa por estatísticos teóricos. Nenhum método surgiu como a melhor maneira de selecionar quais as variáveis ​​a incluir. Infelizmente, os pesquisadores costumam usar métodos informais que parecem razoáveis, mas realmente não são muito bons, como os seguintes:

  • Fazer uma grande regressão múltipla usando todos os preditores disponíveis, e em seguida, solte os que não saem significativo. Esta abordagem pode perder algumas importantes preditores por causa de colinearidade.

  • Executar regressões univariadas em cada preditor possível individualmente, e depois selecionar apenas aqueles preditores que foram significativos (ou quase significativa) nos testes univariados. Mas às vezes uma variável de previsão verdadeiramente importante não é significativamente associada com o resultado, quando testado por si só, mas apenas quando os efeitos de alguma outra variável foram compensados. Este problema é o inverso do problema significado desaparecendo - não é tão comum, mas pode acontecer.

Não há outra maneira - muitas estatísticas pacotes oferecem de regressão, em que você fornecer todas as variáveis ​​de previsão disponíveis, eo programa, em seguida, passa por um processo semelhante ao que um ser humano (com uma mente lógica e um monte de tempo em suas mãos) pode fazer para identificar a melhor subconjunto desses preditores. O programa tenta muito sistematicamente adição e remoção de vários preditores do modelo, uma de cada vez, olhando para ver qual preditores, quando adicionado a um modelo, melhorar substancialmente a sua capacidade de previsão, ou quando removida a partir do modelo, torná-la substancialmente pior.

de regressão pode utilizar vários algoritmos diferentes, e os modelos pode ser julgado para ser melhor ou pior por vários critérios diferentes. Em geral, esses métodos muitas vezes fazem um trabalho decente dos seguintes procedimentos:

  • Detecção e soltar variáveis ​​que não estão associados com o resultado, tanto na regressão uni ou múltipla

  • Detectar e soltando variáveis ​​redundantes (Preditores que estão fortemente associados com ainda melhores preditores do resultado)

  • Detecção e incluindo variáveis ​​que podem não ter sido significativo na regressão uni, mas que são importantes quando você ajustar os efeitos de outras variáveis

A maioria dos softwares de regressão também permite que você # 147-force # 148- certas variáveis ​​no modelo, se você sabe (a partir de evidências fisiológicas) que essas variáveis ​​são importantes preditores do resultado.

menu