Estatísticas de negócio: Use análise de regressão para determinar a validade das Relações

A análise de regressão é uma das técnicas estatísticas mais importante para aplicações de negócios. É uma metodologia estatística que ajuda a estimar a força ea direção da relação entre duas ou mais variáveis. O analista pode usar a análise de regressão para determinar a relação real entre essas variáveis, olhando para vendas e lucros da corporação ao longo dos últimos anos. Os resultados da regressão mostrar se essa relação é válida.

Além das vendas, outros fatores também podem determinar os lucros da corporação, ou pode revelar-se que as vendas não explicam lucros em tudo. Em particular, os pesquisadores, analistas, gestores de carteira, e os comerciantes podem usar a análise de regressão para estimar relações históricas entre os diferentes ativos financeiros. Eles podem então usar esta informação para desenvolver estratégias de negociação e medir o risco contido em uma carteira.

A análise de regressão é uma ferramenta indispensável para a análise de relações entre as variáveis ​​financeiras. Por exemplo, ele pode:

  • Identificar os fatores que são mais responsáveis ​​por lucros de uma corporação

  • Determinar o quanto uma alteração nas taxas de juros terão impacto numa carteira de obrigações

  • Desenvolver uma previsão do valor futuro do Dow Jones Industrial Average

As dez seções a seguir descrevem as etapas usadas para implementar um modelo de regressão e analisar os resultados.

Passo 1: Especificar a variável dependente e independente (s)

Para implementar um modelo de regressão, é importante especificar corretamente a relação entre as variáveis ​​a ser utilizado. O valor de um variável dependente assume-se estar relacionada com o valor de um ou mais variáveis ​​independentes. Por exemplo, suponha que um pesquisador está investigando os fatores que determinam a taxa de inflação. Se o pesquisador acredita que a taxa de inflação depende da taxa de crescimento da oferta de dinheiro, ele pode estimar um modelo de regressão usando a taxa de inflação como variável dependente ea taxa de crescimento da oferta de dinheiro como a variável independente.

Um modelo de regressão com base em uma única variável independente é conhecido como um simples modelagem de regressão com duas ou mais variáveis ​​independentes, o modelo é conhecido como um múltiplo modelo de regressão.

Passo 2: Verificar a existência de linearidade

Um dos pressupostos fundamentais de análise de regressão é que a relação entre as variáveis ​​dependentes e independentes é linear (Isto é, a relação pode ser ilustrada com um linha reta.) Uma das formas mais rápidas de verificar isso é para representar graficamente as variáveis ​​usando um gráfico de dispersão. Um gráfico de dispersão mostra a relação entre duas variáveis ​​com a variável dependente (Y) no eixo vertical e a variável independente (X) no eixo horizontal.

Por exemplo, suponha que um analista acredita que o excesso de volta ao estoque Coca-Cola dependem dos retornos em excesso para o Standard and Poor (SP) 500. (O excesso de retorno a um estoque é igual ao retorno real menos o rendimento em uma conta do Tesouro .) Usando dados mensais de setembro de 2008 a agosto de 2013, a seguinte imagem mostra o excesso de volta para o SP 500 no eixo horizontal, enquanto que o excesso de volta a Coca-Cola estão no eixo vertical.

image0.jpg

Pode ser visto a partir do gráfico de dispersão que esta relação é de pelo menos aproximadamente linear. Portanto, regressão linear, podem ser utilizados para estimar a relação entre estas duas variáveis.

Passo 3: Verifique abordagens alternativas se as variáveis ​​não são lineares

Se o dependente especificado (Y) e independente (X) variáveis ​​não têm uma relação linear entre elas, pode ser possível transformar estas variáveis ​​de forma que eles têm uma relação linear. Por exemplo, pode ser que a relação entre o logaritmo natural de Y e X é linear. Outra possibilidade é que a relação entre o logaritmo natural de Y e o logaritmo natural de x é linear. É também possível que a relação entre a raiz quadrada de Y e X é linear.

Se estas transformações não produzem uma relação linear, variáveis ​​independentes alternativos podem ser escolhidos explicar melhor que o valor da variável dependente.

Passo 4: estimar o modelo

O modelo de regressão linear padrão possa ser estimado com uma técnica conhecida como ordinária menos praças. Isso resulta em fórmulas para a inclinação e intercepção da equação de regressão que "encaixar" a relação entre a variável independente (X) e variável dependente (Y), tanto quanto possível.

Por exemplo, as tabelas a seguir mostram os resultados de estimar um modelo de regressão para os retornos em excesso no estoque Coca-Cola eo SP 500 durante o período de setembro 2008 a agosto de 2013.

image1.jpg

Neste modelo, o excesso de volta ao estoque Coca-Cola é a variável dependente, enquanto o excesso de volta para a SP 500 é a variável independente. Sob a coluna de coeficientes, pode ser visto que a intercepção estimativa da equação de regressão é 0,007893308, e a inclinação é estimada 0,48927098.

Passos 5: Teste do ajuste do modelo, utilizando o coeficiente de variação

O coeficiente de variação (também conhecida como R2) É usado para determinar quão perto um modelo de regressão "encaixa" ou explica a relação entre a variável independente (X) ea variável dependente (Y). R2 pode assumir um valor entre 0 e 1 a R mais perto2 é de 1, melhor o modelo de regressão explica os dados observados.

Como se mostra nas tabelas a partir do Passo 4, o coeficiente de variação é mostrada como "R-quadrado" - esta é igual a 0,271795467. O ajuste não é particularmente forte. Muito provavelmente, o modelo é incompleta, como outros do que os retornos excedentes para o SP 500 também determinam ou explicar o excesso de volta ao estoque Coca-Cola fatores.

Para um modelo de regressão múltipla, o coeficiente de determinação ajustado é usado em vez do coeficiente de determinação para testar a adequação do modelo de regressão.

Passo 6: Faça um teste de hipótese conjunta sobre os coeficientes

Uma equação de regressão múltipla é utilizado para estimar a relação entre a variável dependente (Y) e dois ou mais variáveis ​​independentes (X). Ao implementar um modelo de regressão múltipla, a qualidade geral dos resultados pode ser verificado com um teste de hipóteses. Neste caso, a hipótese nula é de que todos os coeficientes angulares do modelo são iguais a zero, com a hipótese alternativa de que pelo menos um dos coeficientes de declive não é igual a zero.

Se esta hipótese não pode ser rejeitada, as variáveis ​​independentes fazer não explicar o valor da variável dependente. Se a hipótese é rejeitada, pelo menos uma das variáveis ​​independentes faz explicar o valor da variável dependente.

Passo 7: Executar testes de hipóteses sobre os coeficientes de regressão individuais

Cada coeficiente estimado em uma equação de regressão deve ser testado para determinar se é estatisticamente significativa. Se um coeficiente é estatisticamente significativa, a variável correspondente ajuda a explicar o valor da variável dependente (Y). A hipótese nula que está sendo testada é que o coeficiente é igual a zero, se esta hipótese não pode ser rejeitada, a variável correspondente é não estatisticamente significativa.

Este tipo de teste de hipóteses pode ser realizado com uma p-valor (Também conhecido como um valor de probabilidade.) As tabelas na etapa 4 mostram que o valor p relacionado com o coeficiente angular é 1,94506 E-05. Esta expressão é escrita em termos de notação científica- ele também pode ser escrita como 1,94506 X 10-5 ou 0,0000194506.

O p-valor é comparado com o nível de significância do teste de hipótese. Se o p-valor é menos que O nível de significância, a hipótese nula de que o coeficiente é igual a zero é rejected- a variável é, por conseguinte, estatisticamente significativa.

Neste exemplo, o nível de significância de 0,05. O valor-p de 0,0000194506 indica que a inclinação desta equação é estatisticamente signifi- por exemplo, o excesso de volta para o SP 500 explicar o excesso retorna ao estoque Coca-Cola.

Passo 8: Verificar a existência de violações dos pressupostos da análise de regressão

A análise de regressão é baseada em várias suposições-chave. Violações dessas premissas podem levar a resultados imprecisos. Três das violações mais importantes que podem ser encontrados são conhecidos como: autocorrelação, heteroscedasticidade e multicolinearidade.

  • autocorrelação resulta quando os resíduos de um modelo de regressão não são independentes uns dos outros. (Um residual é igual à diferença entre o valor de Y por uma equação de regressão e o valor real de Y.)

    Autocorrelação pode ser detectado a partir de gráficos dos resíduos ou usando medidas estatísticas mais formais, como a estatística Durbin-Watson. Autocorrelação pode ser eliminado com transformações adequadas das variáveis ​​de regressão.

  • heteroscedasticidade refere-se a uma situação em que as variâncias dos resíduos de um modelo de regressão não são iguais. Este problema pode ser identificado com um enredo das transformações residuals- dos dados pode às vezes ser usado para superar este problema.

  • multicolinearidade é um problema que pode surgir apenas com a análise de regressão múltipla. Ele refere-se a uma situação em que duas ou mais das variáveis ​​independentes são altamente correlacionados uns com os outros. Este problema pode ser detectado com medidas estatísticas formais, como o fator de inflação da variância (VIF). Quando multicollinearity está presente, uma das variáveis ​​altamente correlacionados deve ser removido a partir da equação de regressão.

Passo 9: Interpretar os resultados

A intercepção estimativa e coeficiente de um modelo de regressão pode ser interpretado da seguinte forma. O intercepto mostra que o valor de Y seria se X foram iguais a zero. O declive mostra o impacto sobre o Y de uma mudança em X.

Com base nas tabelas no passo 4, a intercepção é estimada 0,007893308. Isso indica que o excesso de retorno mensal para ações da Coca-Cola seria 0,007893308 ou 0,7893308 por cento, se o excesso de retorno mensal para o SP 500 foram de 0 por cento.

Além disso, a inclinação é estimada 0,48927098. Isto indica que um aumento de 1 por cento no excesso de retorno mensal para o SP 500 resultaria em um aumento de 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola. Equivalentemente, um 1 por cento diminuir o excesso de retorno mensal para o SP 500 resultaria em uma diminuição 0,48927098 por cento no excesso de retorno mensal para ações da Coca-Cola.

Passo 10: Previsão de valores futuros

Um modelo de regressão estimado pode ser usado para produzir previsões do futuro valor da variável dependente. Neste exemplo, a equação é estimada:

image2.png

Suponha que um analista tem razão para acreditar que o excesso de retorno mensal para o SP 500, em setembro de 2013 será de 0,005 ou 0,5 por cento. A equação de regressão pode ser usada para prever o excesso de retorno mensal para ações da Coca-Cola como segue:

image3.png

O excesso de retorno mensal previsto para estoque Coca-Cola é 0,010339663 ou 1,0339663 por cento.

menu