Estatísticas de negócio: Use análise de regressão para determinar a validade das Relações
A análise de regressão é uma das técnicas estatísticas mais importante para aplicações de negócios. É uma metodologia estatística que ajuda a estimar a força ea direção da relação entre duas ou mais variáveis. O analista pode usar a análise de regressão para determinar a relação real entre essas variáveis, olhando para vendas e lucros da corporação ao longo dos últimos anos. Os resultados da regressão mostrar se essa relação é válida.
Menu
- Passo 1: especificar a variável dependente e independente (s)
- Passo 2: verificar a existência de linearidade
- Passo 3: verifique abordagens alternativas se as variáveis não são lineares
- Passo 4: estimar o modelo
- Passos 5: teste do ajuste do modelo, utilizando o coeficiente de variação
- Passo 6: faça um teste de hipótese conjunta sobre os coeficientes
- Passo 7: executar testes de hipóteses sobre os coeficientes de regressão individuais
- Passo 8: verificar a existência de violações dos pressupostos da análise de regressão
- Passo 9: interpretar os resultados
- Passo 10: previsão de valores futuros
Além das vendas, outros fatores também podem determinar os lucros da corporação, ou pode revelar-se que as vendas não explicam lucros em tudo. Em particular, os pesquisadores, analistas, gestores de carteira, e os comerciantes podem usar a análise de regressão para estimar relações históricas entre os diferentes ativos financeiros. Eles podem então usar esta informação para desenvolver estratégias de negociação e medir o risco contido em uma carteira.
A análise de regressão é uma ferramenta indispensável para a análise de relações entre as variáveis financeiras. Por exemplo, ele pode:
Identificar os fatores que são mais responsáveis por lucros de uma corporação
Determinar o quanto uma alteração nas taxas de juros terão impacto numa carteira de obrigações
Desenvolver uma previsão do valor futuro do Dow Jones Industrial Average
As dez seções a seguir descrevem as etapas usadas para implementar um modelo de regressão e analisar os resultados.
Passo 1: Especificar a variável dependente e independente (s)
Para implementar um modelo de regressão, é importante especificar corretamente a relação entre as variáveis a ser utilizado. O valor de um variável dependente assume-se estar relacionada com o valor de um ou mais variáveis independentes. Por exemplo, suponha que um pesquisador está investigando os fatores que determinam a taxa de inflação. Se o pesquisador acredita que a taxa de inflação depende da taxa de crescimento da oferta de dinheiro, ele pode estimar um modelo de regressão usando a taxa de inflação como variável dependente ea taxa de crescimento da oferta de dinheiro como a variável independente.
Um modelo de regressão com base em uma única variável independente é conhecido como um simples modelagem de regressão com duas ou mais variáveis independentes, o modelo é conhecido como um múltiplo modelo de regressão.
Passo 2: Verificar a existência de linearidade
Um dos pressupostos fundamentais de análise de regressão é que a relação entre as variáveis dependentes e independentes é linear (Isto é, a relação pode ser ilustrada com um linha reta.) Uma das formas mais rápidas de verificar isso é para representar graficamente as variáveis usando um gráfico de dispersão. Um gráfico de dispersão mostra a relação entre duas variáveis com a variável dependente (Y) no eixo vertical e a variável independente (X) no eixo horizontal.
Por exemplo, suponha que um analista acredita que o excesso de volta ao estoque Coca-Cola dependem dos retornos em excesso para o Standard and Poor (SP) 500. (O excesso de retorno a um estoque é igual ao retorno real menos o rendimento em uma conta do Tesouro .) Usando dados mensais de setembro de 2008 a agosto de 2013, a seguinte imagem mostra o excesso de volta para o SP 500 no eixo horizontal, enquanto que o excesso de volta a Coca-Cola estão no eixo vertical.
Pode ser visto a partir do gráfico de dispersão que esta relação é de pelo menos aproximadamente linear. Portanto, regressão linear, podem ser utilizados para estimar a relação entre estas duas variáveis.
Passo 3: Verifique abordagens alternativas se as variáveis não são lineares
Se o dependente especificado (Y) e independente (X) variáveis não têm uma relação linear entre elas, pode ser possível transformar estas variáveis de forma que eles têm uma relação linear. Por exemplo, pode ser que a relação entre o logaritmo natural de Y e X é linear. Outra possibilidade é que a relação entre o logaritmo natural de Y e o logaritmo natural de x é linear. É também possível que a relação entre a raiz quadrada de Y e X é linear.
Se estas transformações não produzem uma relação linear, variáveis independentes alternativos podem ser escolhidos explicar melhor que o valor da variável dependente.
Passo 4: estimar o modelo
O modelo de regressão linear padrão possa ser estimado com uma técnica conhecida como ordinária menos praças. Isso resulta em fórmulas para a inclinação e intercepção da equação de regressão que "encaixar" a relação entre a variável independente (X) e variável dependente (Y), tanto quanto possível.
Por exemplo, as tabelas a seguir mostram os resultados de estimar um modelo de regressão para os retornos em excesso no estoque Coca-Cola eo SP 500 durante o período de setembro 2008 a agosto de 2013.
Neste modelo, o excesso de volta ao estoque Coca-Cola é a variável dependente, enquanto o excesso de volta para a SP 500 é a variável independente. Sob a coluna de coeficientes, pode ser visto que a intercepção estimativa da equação de regressão é 0,007893308, e a inclinação é estimada 0,48927098.
Passos 5: Teste do ajuste do modelo, utilizando o coeficiente de variação
O coeficiente de variação (também conhecida como R2) É usado para determinar quão perto um modelo de regressão "encaixa" ou explica a relação entre a variável independente (X) ea variável dependente (Y). R2 pode assumir um valor entre 0 e 1 a R mais perto2 é de 1, melhor o modelo de regressão explica os dados observados.
Como se mostra nas tabelas a partir do Passo 4, o coeficiente de variação é mostrada como "R-quadrado" - esta é igual a 0,271795467. O ajuste não é particularmente forte. Muito provavelmente, o modelo é incompleta, como outros do que os retornos excedentes para o SP 500 também determinam ou explicar o excesso de volta ao estoque Coca-Cola fatores.
Para um modelo de regressão múltipla, o coeficiente de determinação ajustado é usado em vez do coeficiente de determinação para testar a adequação do modelo de regressão.
Passo 6: Faça um teste de hipótese conjunta sobre os coeficientes
Uma equação de regressão múltipla é utilizado para estimar a relação entre a variável dependente (Y) e dois ou mais variáveis independentes (X). Ao implementar um modelo de regressão múltipla, a qualidade geral dos resultados pode ser verificado com um teste de hipóteses. Neste caso, a hipótese nula é de que todos os coeficientes angulares do modelo são iguais a zero, com a hipótese alternativa de que pelo menos um dos coeficientes de declive não é igual a zero.
Se esta hipótese não pode ser rejeitada, as variáveis independentes fazer não explicar o valor da variável dependente. Se a hipótese é rejeitada, pelo menos uma das variáveis independentes faz explicar o valor da variável dependente.
Passo 7: Executar testes de hipóteses sobre os coeficientes de regressão individuais
Cada coeficiente estimado em uma equação de regressão deve ser testado para determinar se é estatisticamente significativa. Se um coeficiente é estatisticamente significativa, a variável correspondente ajuda a explicar o valor da variável dependente (Y). A hipótese nula que está sendo testada é que o coeficiente é igual a zero, se esta hipótese não pode ser rejeitada, a variável correspondente é não estatisticamente significativa.
Este tipo de teste de hipóteses pode ser realizado com uma p-valor (Também conhecido como um valor de probabilidade.) As tabelas na etapa 4 mostram que o valor p relacionado com o coeficiente angular é 1,94506 E-05. Esta expressão é escrita em termos de notação científica- ele também pode ser escrita como 1,94506 X 10-5 ou 0,0000194506.
O p-valor é comparado com o nível de significância do teste de hipótese. Se o p-valor é menos que O nível de significância, a hipótese nula de que o coeficiente é igual a zero é rejected- a variável é, por conseguinte, estatisticamente significativa.
Neste exemplo, o nível de significância de 0,05. O valor-p de 0,0000194506 indica que a inclinação desta equação é estatisticamente signifi- por exemplo, o excesso de volta para o SP 500 explicar o excesso retorna ao estoque Coca-Cola.
Passo 8: Verificar a existência de violações dos pressupostos da análise de regressão
A análise de regressão é baseada em várias suposições-chave. Violações dessas premissas podem levar a resultados imprecisos. Três das violações mais importantes que podem ser encontrados são conhecidos como: autocorrelação, heteroscedasticidade e multicolinearidade.
autocorrelação resulta quando os resíduos de um modelo de regressão não são independentes uns dos outros. (Um residual é igual à diferença entre o valor de Y por uma equação de regressão e o valor real de Y.)
Autocorrelação pode ser detectado a partir de gráficos dos resíduos ou usando medidas estatísticas mais formais, como a estatística Durbin-Watson. Autocorrelação pode ser eliminado com transformações adequadas das variáveis de regressão.
heteroscedasticidade refere-se a uma situação em que as variâncias dos resíduos de um modelo de regressão não são iguais. Este problema pode ser identificado com um enredo das transformações residuals- dos dados pode às vezes ser usado para superar este problema.
multicolinearidade é um problema que pode surgir apenas com a análise de regressão múltipla. Ele refere-se a uma situação em que duas ou mais das variáveis independentes são altamente correlacionados uns com os outros. Este problema pode ser detectado com medidas estatísticas formais, como o fator de inflação da variância (VIF). Quando multicollinearity está presente, uma das variáveis altamente correlacionados deve ser removido a partir da equação de regressão.
Passo 9: Interpretar os resultados
A intercepção estimativa e coeficiente de um modelo de regressão pode ser interpretado da seguinte forma. O intercepto mostra que o valor de Y seria se X foram iguais a zero. O declive mostra o impacto sobre o Y de uma mudança em X.
Com base nas tabelas no passo 4, a intercepção é estimada 0,007893308. Isso indica que o excesso de retorno mensal para ações da Coca-Cola seria 0,007893308 ou 0,7893308 por cento, se o excesso de retorno mensal para o SP 500 foram de 0 por cento.
Além disso, a inclinação é estimada 0,48927098. Isto indica que um aumento de 1 por cento no excesso de retorno mensal para o SP 500 resultaria em um aumento de 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola. Equivalentemente, um 1 por cento diminuir o excesso de retorno mensal para o SP 500 resultaria em uma diminuição 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola.
Passo 10: Previsão de valores futuros
Um modelo de regressão estimado pode ser usado para produzir previsões do futuro valor da variável dependente. Neste exemplo, a equação é estimada:
Suponha que um analista tem razão para acreditar que o excesso de retorno mensal para o SP 500, em setembro de 2013 será de 0,005 ou 0,5 por cento. A equação de regressão pode ser usada para prever o excesso de retorno mensal para ações da Coca-Cola como segue:
O excesso de retorno mensal previsto para estoque Coca-Cola é 0,010339663 ou 1,0339663 por cento.