Como medir o Covariância e Correlação de amostras de dados

Ao comparar amostras de dados a partir de populações diferentes, duas das medidas mais populares de associação são covariância e correlação. Covariância e correlação mostram que as variáveis ​​podem ter uma relação positiva, uma relação negativa, ou nenhuma relação em tudo.

Uma amostra é uma seleção escolhida aleatoriamente de elementos de uma população subjacente.

covariância amostra mede a força e a direcção da relação entre os elementos de duas amostras, e a correlação amostra é derivada da covariância. A covariância de amostra entre duas variáveis, x e Y, é

image0.png

Aqui está o que cada elemento nesta equação significa:

  • sXY = A covariância da amostra entre as variáveis x e Y (Os dois subscritos indicam que esta é a covariância amostra, não o desvio padrão da amostra).

    image1.png
  • n = O número de elementos em ambas as amostras.

  • Eu = an índice que atribui um número a cada elemento da amostra, variando de 1 a n.

  • xEu = Um único elemento na amostra para x.

  • YEu = Um único elemento na amostra para Y.

    image2.png

A covariância de amostra pode ter qualquer valor positivo ou negativo.

Você calcular o correlação amostral (Também conhecido como a amostra coeficiente de correlação) entre x e Y directamente a partir da amostra de covariância com a seguinte fórmula:

image3.png

Os termos-chave nesta fórmula são

  • rXY = Correlação de amostra entre x e Y

  • sXY = Covariância de amostra entre x e Y

  • sx = Desvio padrão da amostra x

  • sY = Desvio padrão da amostra Y

A fórmula utilizada para calcular o coeficiente de correlação amostra assegura que o seu valor varia entre -1 e 1.

Por exemplo, suponha que você ter uma amostra dos retornos das ações da Excelsior Corporation e da Corporação Adirondack dos anos de 2008 a 2012, como mostrado aqui:

AnoExcelsior Corp. Retorno anual (percentagem) (x)Adirondack Corp. Retorno anual (percentagem) (Y)
200813
2009-22
201034
201106
201230

O que são a covariância e correlação entre os retornos das ações? Para descobrir isso, você primeiro tem que encontrar a média de cada amostra. Neste exemplo, x representa os retornos do Excelsior e Y representa os retornos de Adirondack.

  • A média da amostra de x é

    image4.png

Pode obter a média da amostra pela soma de todos os elementos da amostra e dividindo pelo tamanho da amostra. Neste caso, os elementos de amostras de resumir a 5 e a dimensão da amostra é 5. Divisória estes números dá uma média da amostra de 1.

  • A média da amostra de Y é

    image5.png

Esta tabela mostra os cálculos restantes para a covariância da amostra:

image6.png

Na tabela, o

image7.png

coluna representa as diferenças entre cada retorno à Excelsior na amostra e a amostra de significado semelhante, o

image8.png

coluna representa os mesmos cálculos para Adirondack. As entradas no

image9.png

coluna igual ao produto das entradas nas duas colunas anteriores. A soma do

image10.png

coluna contém o numerador na fórmula amostra covariância:

image11.png

O denominador é igual ao menos um tamanho de amostra, que é 5-1 = 4. (Ambas as amostras têm cinco elementos, n = 5.) ​​Portanto, a covariância da amostra é igual a

image12.png

Para calcular o coeficiente de correlação de exemplo, dividir a amostra covariância pelo produto do desvio padrão da amostra de x eo desvio padrão da amostra de Y:

image13.png

Você encontra o desvio padrão da amostra de x calculando a variação da amostra de x e, em seguida, tomando a raiz quadrada do resultado. A tabela mostra os cálculos para a variância da amostra de x.

image14.png

Na tabela, o

image15.png

coluna representa as diferenças entre cada retorno para Excelsior na amostra e a amostra dizer- o

image16.png

coluna representa o quadrado diferença entre cada retorno ao Excelsior e a média da amostra. A soma do

image17.png

coluna contém o numerador na fórmula variância da amostra. Você divide este número por um tamanho de amostra de menos (5 - 1 = 4) para obter a variação da amostra de x:

image18.png

O desvio padrão da amostra de x é a raiz quadrada de 4,5, ou

image19.png

A tabela mostra os cálculos para a variância da amostra de Y.

image20.png

Com base nos cálculos da tabela, a variação da amostra de Y é igual a

image21.png

O desvio padrão da amostra de Y é igual à raiz quadrada de 5, ou

image22.png

Substituindo estes valores na fórmula de correlação da amostra dá-lhe

image23.png

O resultado negativo mostra que há uma correlação negativa fraca entre os retornos das ações de Excelsior e Adirondack. Se duas variáveis ​​são perfeitamente correlacionada negativamente (eles sempre movem em direções opostas), sua correlação será -1. Se duas variáveis ​​são independente (Não relacionadas entre si), sua correlação será 0. A correlação entre os retornos para Excelsior e estoque de Adirondack é um -0,2108, o que indica que as duas variáveis ​​mostram uma ligeira tendência de se mover em direções opostas.

menu