Como quantificar a força de um relacionamento com Analítica

Você pode numericamente quantificar a força de uma associação usando a correlação do momento do produto Pearson. É muitas vezes chamado apenas o coeficiente de correlação e é representado pelo símbolo r.

A correlação é utilizada para quantificar a associação entre duas variáveis ​​contínuas, (tais como escalas de receita, tempo ou classificação).

O coeficiente de correlação varia de um r de -1, o que indica uma correlação negativa perfeita a 1, o que significa uma perfeita correlação positiva. A figura mostra três exemplos de gráficos de dispersão que mostram uma correlação negativa perfeita (r = -1), Não há relações (r = 0), e uma relação positiva perfeita (r = 1).

image0.jpg

Usando duas variáveis ​​perfeitamente correlacionados não é útil. Eles estão redundant- se você tem o valor de uma variável, você pode perfeitamente prever o outro.

Na prática, as correlações são fraco a forte. Alguns exemplos de correlações de forças diferentes incluem:

  • Altura e peso: r = 0,8

  • Scholastic Aptitude Test (SAT) e primeiro ano da faculdade tipos: r = 0,5

  • Usabilidade e fidelização de clientes: r = 0,7

A correlação entre as variáveis ​​significa que uma variável pode prever o valor da outra variável:

  • Se você sabe a altura de um cliente, você pode estimar o seu peso.

  • Se você sabe o peso de um cliente, você pode estimar sua altura.

Mas porque estes não são correlações perfeitas, mais uma correlação é de 1 ou -1, mais de erro que você tem na previsão de uma variável com base no outro.

Calculando uma correlação

Você pode calcular o coeficiente de correlação com a mão, ou usar um software como o Excel para calcular isso para você.

Para calcular uma correlação de um conjunto de dados usando a fórmula de correlação de Pearson, siga estes passos. (A figura seguinte mostra os dados a serem utilizados neste exemplo).

image1.jpg
  1. Configure os dados em linhas e colunas em Excel.

    Ter uma coluna para cada variável e IDs dos clientes. Cada linha deve representar dados da mesma do cliente em duas variáveis. A figura a seguir mostra o tempo 17 clientes 'para fazer a compra eo número de toques necessários para a compra.

    image2.jpg
  2. Em qualquer célula, tipo

    = PEARSON (
  3. Seleccionar todos os valores da primeira variável.

    Os dados para o tempo aparece na coluna B e os dados vai de célula B2 para a célula B182.

  4. Digite uma vírgula (,) e selecione todos os valores para a segunda variável.

    Esses dados aparecem na coluna C e os dados vai de C2 célula para célula C182.

    Certifique-se de selecionar o mesmo número de valores para as duas variáveis.

  5. Fechar o parêntesis e pressione Enter para obter a correlação.

    = PEARSON (B2: B182, C2: C182)

    A correlação de dados, entre torneiras e tempo, é 0,560666. Há uma correlação positiva entre o tempo e torneiras.

Interpretação da força de uma correlação

Uma vez que você calcular uma correlação, você precisa interpretar a força da relação. A correlação entre torneiras e tempo é r = 0,56. É que uma forte correlação? Depende.

A força de correlação é dependente do contexto. UMA # 147-forte # 148- correlação em um contexto pode haver uma correlação fraca em outro. Depende de quanto de erro que você pode tolerar e as consequências para estar errado em suas previsões.

Prever o tempo de torneiras provavelmente não implicará uma perda de vida ou dinheiro, por isso é forte o suficiente para ser útil. Na verdade, é sobre a mesma força de uma associação entre o SAT e graus universitários de primeiro ano - onde há muita coisa em jogo!

Enquanto correlações são dependentes do contexto, ele pode ajudar a ter algumas orientações sobre o que você provavelmente verá com dados de análise de clientes. Um pesquisador famoso pelo nome de Jacob Cohen examinou as correlações nas ciências do comportamento, algo semelhante ao que mede o comportamento do cliente, e desde que as seguintes regras com base em quão comum as correlações foram relatados na literatura peer-review:

  • Pequeno r = .10

  • Médio: r = .30

  • Grande r = .50

Portanto, uma interpretação simples de correlação r = 0,56 entre torneiras e tempo é que é grande. Mas há outra maneira de interpretar o coeficiente de correlação.

Coeficiente de determinação r2

A multiplicação do coeficiente de correlação por si só (quadratura) produz uma métrica conhecido como o coeficiente de determinação. É representado como r2 (pronunciado r-quadrado) e proporciona uma melhor maneira de interpretar a força de um relacionamento.

Por exemplo, uma correlação de r = 0,5 quadrado torna-se 0,25. Observe que r2 é muitas vezes expressa como uma percentagem, 25%. Para a correlação entre torneiras e tempo, o r2 é de 31%. Isso significa que pode explicar torneiras 31% de variação no tempo. E inversamente, tempo explica 31% da variação de torneiras. Como você pode ver, mesmo uma forte correlação acima de r = 0,5 explica ainda uma minoria das diferenças entre variáveis.

Altura, por exemplo, explica cerca de 64% da variação de peso. Isso significa que saber a altura das pessoas vai explicar a maioria - mas não todos - por que eles são um certo peso. Outros factores explicam 36% da variação. Isso inclui coisas como exercício, hábitos alimentares, ou fatores genéticos que fazem algumas pessoas pesar mais a uma certa altura do que outros da mesma altura.

Use esta mesma abordagem ao correlacionar análise de clientes. Encontre a correlação, quadrado, e então interpretar o r-valor ao quadrado. Quando apostas são altas, você quer ter altas correlações e explicar a maior parte da variação entre as variáveis. Com análise de clientes, geralmente há múltiplas variáveis ​​que predizem uma outra variável.

Correlação não é causalidade

Um dos conceitos mais importantes sobre a correlação que você vai ouvir repetidas, porque vale a pena repetir, é que a correlação não é causalidade. Isso significa que só porque uma variável está relacionada com outra, não significa uma variável é causada por outra variável. O tempo não causar torneiras. SAT não causam graus mais elevados. Net Promoter Scores não causam maior receita.

Você pode dizer que há uma associação, mas essa associação não implica causalidade.

Pode ser que um novo design faz com maiores taxas de conversão do site ou pode ser que um cupão aumenta as vendas mesmas lojas. No entanto, poderia haver outras variáveis ​​que são, na verdade, que afetam a variável de resultado.

Por exemplo, pode ser que as vendas mesmas lojas já estavam a aumentar devido a um aumento de clientes. Ou pode ser que mais clientes estão se convertendo em um site (fazer uma compra), porque o site do concorrente vendido para fora do mesmo produto - não por causa de sua mudança de design do site. Sempre considere que outras variáveis ​​podem estar afetando o relacionamento ao fazer declarações sobre causalidade.

menu