Como utilizar regressões lineares em análise preditiva
Regressão linear é um método estatístico que analisa e encontra as relações entre duas variáveis. Em análises de previsão que pode ser utilizado para prever um futuro valor numérico de uma variável.
Considere um exemplo de dados que contém duas variáveis: dados passados que consiste nos tempos de chegada de um trem e seu tempo de atraso correspondente. Suponha que você quer prever o que o atraso seria o próximo trem. Se você aplicar regressão linear para estas duas variáveis - a chegada e tempos de atraso - você pode gerar uma equação linear, como
Atraso = a + (b * A hora de chegada) + d
Esta equação expressa a relação entre o tempo de atraso e hora de chegada. as constantes uma e b são parâmetros do modelo. a variável d é o termo de erro (Também conhecido como o restante) - Um valor numérico que representa a incompatibilidade entre as duas variáveis demora e tempo de chegada. Se o erro não for igual a zero, em seguida, que pode indicar que há critérios que afectem a variável demora.
Se você está sentado na estação de trem, você pode simplesmente ligar o tempo de chegada na equação anterior e você pode calcular o atraso esperado, utilizando determinados parâmetros do modelo de regressão linear a, b, e d.
A regressão linear é (como você pode imaginar) mais adequado para dados lineares. Mas é muito sensível para com valores extremos nos pontos de dados. Os valores discrepantes em seus dados pode ter um impacto significativo sobre o modelo. É recomendável que você remover esses valores extremos do conjunto de treinamento se você estiver planejando usar regressão linear para o modelo preditivo.