Usando regressão linear para prever um resultado

investigadores estatísticos utilizam frequentemente uma relação linear para prever a (média) de valor numérico Y para um dado valor de x usando uma linha reta (o chamado linha de regressão). Se você sabe a inclinação ea y-intercepção da linha de regressão, em seguida, você pode conectar um valor para x e prever o valor médio para Y. Em outras palavras, você prever (a média) Y a partir de X.

Se você estabelecer, pelo menos, uma correlação moderada entre x e Y tanto através de um coeficiente de correlação e um gráfico de dispersão, então você sabe que eles têm algum tipo de relação linear.

Nunca faça uma análise de regressão, a menos que você já encontrou, pelo menos, um moderadamente forte correlação entre as duas variáveis. (A boa regra é que deve ser atingido ou ultrapassado positiva ou negativa de 0,50). Se os dados não se parecem com uma linha para começar, você não deve tentar usar uma linha para ajustar os dados e fazer previsões ( mas as pessoas ainda tentar).

Antes de avançar para encontrar a equação para a sua linha de regressão, você tem que identificar qual das suas duas variáveis ​​é x e que é Y. Ao fazer correlações, a escolha de qual variável é xe que é Y não importa, contanto que você é consistente para todos os dados. Mas na montagem linhas e fazer previsões, a escolha de x e Y faz diferença.

Então, como é possível determinar qual variável é qual? Em geral, Y é a variável que você quer prever e x é a variável que você está usando para fazer essa previsão. Por exemplo, digamos que você está usando o número de vezes que uma população de grilos piar para prever a temperatura. Neste caso, você faria a variável Y a temperatura, e a variável x o número de silvos. Conseqüentemente Y pode ser prevista através x usando a equação de uma linha se existe uma relação linear forte o suficiente.

Os estatísticos chamam a x-variável (grilos neste exemplo) a variável explicativa, porque se x alterações, a inclinação diz-lhe (ou explica) quanto Y deverá mudar em resposta. Portanto, o Y variável é chamado o variável resposta. Outros nomes para x e Y incluem o independente e dependente variáveis, respectivamente.

No caso de duas variáveis ​​numéricas, você pode vir até com uma linha que permite prever Y a partir de X, se (e somente se) estiverem preenchidas as duas condições seguintes:

  • A dispersão deve formar um padrão linear.

  • A correlação, R, é moderado a forte (tipicamente além 0,50 ou -0,50).

Alguns pesquisadores realmente não verificar estas condições antes de fazer previsões. Suas reivindicações não são válidos se forem satisfeitas as duas condições.

Mas suponha que a correlação é alta você ainda precisa de olhar para o gráfico de dispersão? Sim. Em algumas situações, os dados têm uma forma ligeiramente curva, no entanto, a correlação é ainda forte-, nestes casos, fazer previsões utilizando uma linha recta ainda é inválido. Previsões nestes casos, devem ser feitos com base em outros métodos que utilizam uma curva em vez disso.

menu