Construção de modelos com regressão passo a passo
Uma das razões (mas não a única razão) para a execução de uma análise de regressão múltipla é para chegar a uma fórmula previsão para alguma variável desfecho, com base em um conjunto de variáveis de previsão disponíveis. Idealmente, você gostaria que essa fórmula seja parcimonioso - ter como poucas variáveis quanto possível, mas ainda fazer boas previsões.
Então, como é que você escolher, de entre um grupo grande de variáveis de previsão, o menor subconjunto necessário para fazer um bom modelo de previsão? Isso é chamado de # 147-modelo de construção # 148- problema, que é um tema de pesquisa ativa por estatísticos teóricos. Nenhum método surgiu como a melhor maneira de selecionar quais as variáveis a incluir. Infelizmente, os pesquisadores costumam usar métodos informais que parecem razoáveis, mas realmente não são muito bons, como os seguintes:
Fazer uma grande regressão múltipla usando todos os preditores disponíveis, e em seguida, solte os que não saem significativo. Esta abordagem pode perder algumas importantes preditores por causa de colinearidade.
Executar regressões univariadas em cada preditor possível individualmente, e depois selecionar apenas aqueles preditores que foram significativos (ou quase significativa) nos testes univariados. Mas às vezes uma variável de previsão verdadeiramente importante não é significativamente associada com o resultado, quando testado por si só, mas apenas quando os efeitos de alguma outra variável foram compensados. Este problema é o inverso do problema significado desaparecendo - não é tão comum, mas pode acontecer.
Não há outra maneira - muitas estatísticas pacotes oferecem de regressão, em que você fornecer todas as variáveis de previsão disponíveis, eo programa, em seguida, passa por um processo semelhante ao que um ser humano (com uma mente lógica e um monte de tempo em suas mãos) pode fazer para identificar a melhor subconjunto desses preditores. O programa tenta muito sistematicamente adição e remoção de vários preditores do modelo, uma de cada vez, olhando para ver qual preditores, quando adicionado a um modelo, melhorar substancialmente a sua capacidade de previsão, ou quando removida a partir do modelo, torná-la substancialmente pior.
de regressão pode utilizar vários algoritmos diferentes, e os modelos pode ser julgado para ser melhor ou pior por vários critérios diferentes. Em geral, esses métodos muitas vezes fazem um trabalho decente dos seguintes procedimentos:
Detecção e soltar variáveis que não estão associados com o resultado, tanto na regressão uni ou múltipla
Detectar e soltando variáveis redundantes (Preditores que estão fortemente associados com ainda melhores preditores do resultado)
Detecção e incluindo variáveis que podem não ter sido significativo na regressão uni, mas que são importantes quando você ajustar os efeitos de outras variáveis
A maioria dos softwares de regressão também permite que você # 147-force # 148- certas variáveis no modelo, se você sabe (a partir de evidências fisiológicas) que essas variáveis são importantes preditores do resultado.