Como medir o Covariância e Correlação de amostras de dados
Ao comparar amostras de dados a partir de populações diferentes, duas das medidas mais populares de associação são covariância e correlação. Covariância e correlação mostram que as variáveis podem ter uma relação positiva, uma relação negativa, ou nenhuma relação em tudo.
Uma amostra é uma seleção escolhida aleatoriamente de elementos de uma população subjacente.
covariância amostra mede a força e a direcção da relação entre os elementos de duas amostras, e a correlação amostra é derivada da covariância. A covariância de amostra entre duas variáveis, x e Y, é

Aqui está o que cada elemento nesta equação significa:
sXY = A covariância da amostra entre as variáveis x e Y (Os dois subscritos indicam que esta é a covariância amostra, não o desvio padrão da amostra).
n = O número de elementos em ambas as amostras.
Eu = an índice que atribui um número a cada elemento da amostra, variando de 1 a n.
xEu = Um único elemento na amostra para x.
YEu = Um único elemento na amostra para Y.
A covariância de amostra pode ter qualquer valor positivo ou negativo.
Você calcular o correlação amostral (Também conhecido como a amostra coeficiente de correlação) entre x e Y directamente a partir da amostra de covariância com a seguinte fórmula:

Os termos-chave nesta fórmula são
rXY = Correlação de amostra entre x e Y
sXY = Covariância de amostra entre x e Y
sx = Desvio padrão da amostra x
sY = Desvio padrão da amostra Y
A fórmula utilizada para calcular o coeficiente de correlação amostra assegura que o seu valor varia entre -1 e 1.
Por exemplo, suponha que você ter uma amostra dos retornos das ações da Excelsior Corporation e da Corporação Adirondack dos anos de 2008 a 2012, como mostrado aqui:
Ano | Excelsior Corp. Retorno anual (percentagem) (x) | Adirondack Corp. Retorno anual (percentagem) (Y) |
---|---|---|
2008 | 1 | 3 |
2009 | -2 | 2 |
2010 | 3 | 4 |
2011 | 0 | 6 |
2012 | 3 | 0 |
O que são a covariância e correlação entre os retornos das ações? Para descobrir isso, você primeiro tem que encontrar a média de cada amostra. Neste exemplo, x representa os retornos do Excelsior e Y representa os retornos de Adirondack.
A média da amostra de x é
Pode obter a média da amostra pela soma de todos os elementos da amostra e dividindo pelo tamanho da amostra. Neste caso, os elementos de amostras de resumir a 5 e a dimensão da amostra é 5. Divisória estes números dá uma média da amostra de 1.
A média da amostra de Y é
Esta tabela mostra os cálculos restantes para a covariância da amostra:

Na tabela, o

coluna representa as diferenças entre cada retorno à Excelsior na amostra e a amostra de significado semelhante, o

coluna representa os mesmos cálculos para Adirondack. As entradas no

coluna igual ao produto das entradas nas duas colunas anteriores. A soma do

coluna contém o numerador na fórmula amostra covariância:

O denominador é igual ao menos um tamanho de amostra, que é 5-1 = 4. (Ambas as amostras têm cinco elementos, n = 5.) Portanto, a covariância da amostra é igual a

Para calcular o coeficiente de correlação de exemplo, dividir a amostra covariância pelo produto do desvio padrão da amostra de x eo desvio padrão da amostra de Y:

Você encontra o desvio padrão da amostra de x calculando a variação da amostra de x e, em seguida, tomando a raiz quadrada do resultado. A tabela mostra os cálculos para a variância da amostra de x.

Na tabela, o

coluna representa as diferenças entre cada retorno para Excelsior na amostra e a amostra dizer- o

coluna representa o quadrado diferença entre cada retorno ao Excelsior e a média da amostra. A soma do

coluna contém o numerador na fórmula variância da amostra. Você divide este número por um tamanho de amostra de menos (5 - 1 = 4) para obter a variação da amostra de x:

O desvio padrão da amostra de x é a raiz quadrada de 4,5, ou

A tabela mostra os cálculos para a variância da amostra de Y.

Com base nos cálculos da tabela, a variação da amostra de Y é igual a

O desvio padrão da amostra de Y é igual à raiz quadrada de 5, ou

Substituindo estes valores na fórmula de correlação da amostra dá-lhe

O resultado negativo mostra que há uma correlação negativa fraca entre os retornos das ações de Excelsior e Adirondack. Se duas variáveis são perfeitamente correlacionada negativamente (eles sempre movem em direções opostas), sua correlação será -1. Se duas variáveis são independente (Não relacionadas entre si), sua correlação será 0. A correlação entre os retornos para Excelsior e estoque de Adirondack é um -0,2108, o que indica que as duas variáveis mostram uma ligeira tendência de se mover em direções opostas.