As associações entre variáveis ​​binárias

Muito frequentemente em análise de clientes, você encontra dados binários que toma a forma de sim / não, compra / não compra, concordam / discordam, e assim por diante. Você precisa entender a associação entre variáveis ​​binárias, assim como você precisa entender a associação entre variáveis ​​contínuas. Enquanto o princípio da correlação é a mesma com os dados binários, no entanto, os cálculos são diferentes.

Um dos exemplos mais famosos e visíveis de análise preditiva com dados binários é o mecanismo de recomendação Amazon.

image0.jpg

Enquanto o algoritmo exato Amazon usa é proprietário, sabe-se que muito do que é baseado em uma associação que indica que uma pessoa que compra um livro também adquire um outro livro. As recomendações são baseadas em variáveis ​​binárias. Para gerar uma recomendação, Amazon calcula a proporção de clientes que compram um livro e a proporção dos mesmos clientes que comprarem qualquer número de outros livros.

Livros com a maior associação são recomendados em primeiro lugar, a próxima mais alta associações seguinte, e assim por diante. A figura abaixo mostra as operações de 15 clientes em quatro livros. Estes apenas como provavelmente poderia ser software, mantimentos, músicas em uma lista de reprodução, programas de TV, ou quaisquer produtos ou serviços os clientes podem escolher.

image1.jpg

Se o cliente comprou o livro, há um 1 no row- se não o fizesse, há um 0. Por exemplo, o Cliente 1 compra do livro A e B do livro, mas não C ou D. Cliente 2 comprada único Livro B.

Para calcular a associação entre quaisquer duas compras de livros, siga estes passos:

  1. Contar o número de clientes que compraram cada uma dessas combinações de livros:

  2. nem livro

  3. ambos os livros

  4. Apenas Livro A

  5. Apenas Livro B

  6. Coloque os totais em uma tabela, como este:

    livro B
    livro AYN
    Y62
    N34

    Por exemplo, seis clientes comprei dois livros A e B.

  7. Rotular a células de tabela A a D, como este:

    livro B
    livro AYN
    Yumab
    Ncd
  8. Use a fórmula para a correlação entre as variáveis ​​binárias:

    image2.jpg
  9. Preencha os valores para os livros para encontrar a correlação entre as variáveis ​​binárias, como este:

    image3.jpg

    Neste caso, a correlação entre os clientes que compram Livro Um e Livro B é 0,327.

    A correlação entre as variáveis ​​binárias é chamado phi, e é representado com o símbolo grego

    image4.jpg

Você pode interpretar a associação entre números binários da mesma forma que a correlação de Pearson r. Na verdade, phi é um método de atalho para a computação r. Você obtém os mesmos resultados usando a fórmula Excel Pearson e computação da correlação para todos os conjuntos de dados.

A figura a seguir mostra a configuração de dados no Excel. A correlação entre todos os pares de livros foi calculado usando o = PEARSON () função do Excel.

image5.jpg

Em seguida, uma matriz de correlações foi criado para cada par de livros, como mostrado a seguir:

image6.jpg

Confirmando o resultado anteriormente, a correlação entre o livro A e B é 0,33. A segunda maior correlação é entre Livro Um e Livro D em 0,25.

A correlação entre o Livro B e C do livro é -.48. Essa correlação negativa significa que os clientes que compram Livro B são menos propensos a comprar Livro C.

Portanto, se um cliente está visualizando e pensando em comprar Livro A, não faria sentido para recomendar (e, possivelmente, oferecer esse cliente um incentivo) para também comprar Livro B e D, mas não Reserve C.

Você pode ouvir os termos Análise Basket ou Análise de Afinidade. Ambos são apenas outros nomes para encontrar associações e correlações entre as variáveis. É como examinar cestas de compras dos clientes em um supermercado para ver o que os itens são comprados juntos.

menu