As associações entre variáveis binárias
Muito frequentemente em análise de clientes, você encontra dados binários que toma a forma de sim / não, compra / não compra, concordam / discordam, e assim por diante. Você precisa entender a associação entre variáveis binárias, assim como você precisa entender a associação entre variáveis contínuas. Enquanto o princípio da correlação é a mesma com os dados binários, no entanto, os cálculos são diferentes.
Um dos exemplos mais famosos e visíveis de análise preditiva com dados binários é o mecanismo de recomendação Amazon.
Enquanto o algoritmo exato Amazon usa é proprietário, sabe-se que muito do que é baseado em uma associação que indica que uma pessoa que compra um livro também adquire um outro livro. As recomendações são baseadas em variáveis binárias. Para gerar uma recomendação, Amazon calcula a proporção de clientes que compram um livro e a proporção dos mesmos clientes que comprarem qualquer número de outros livros.
Livros com a maior associação são recomendados em primeiro lugar, a próxima mais alta associações seguinte, e assim por diante. A figura abaixo mostra as operações de 15 clientes em quatro livros. Estes apenas como provavelmente poderia ser software, mantimentos, músicas em uma lista de reprodução, programas de TV, ou quaisquer produtos ou serviços os clientes podem escolher.
Se o cliente comprou o livro, há um 1 no row- se não o fizesse, há um 0. Por exemplo, o Cliente 1 compra do livro A e B do livro, mas não C ou D. Cliente 2 comprada único Livro B.
Para calcular a associação entre quaisquer duas compras de livros, siga estes passos:
Contar o número de clientes que compraram cada uma dessas combinações de livros:
nem livro
ambos os livros
Apenas Livro A
Apenas Livro B
Coloque os totais em uma tabela, como este:
livro B livro A Y N Y 6 2 N 3 4 Por exemplo, seis clientes comprei dois livros A e B.
Rotular a células de tabela A a D, como este:
livro B livro A Y N Y uma b N c d Use a fórmula para a correlação entre as variáveis binárias:
Preencha os valores para os livros para encontrar a correlação entre as variáveis binárias, como este:
Neste caso, a correlação entre os clientes que compram Livro Um e Livro B é 0,327.
A correlação entre as variáveis binárias é chamado phi, e é representado com o símbolo grego
Você pode interpretar a associação entre números binários da mesma forma que a correlação de Pearson r. Na verdade, phi é um método de atalho para a computação r. Você obtém os mesmos resultados usando a fórmula Excel Pearson e computação da correlação para todos os conjuntos de dados.
A figura a seguir mostra a configuração de dados no Excel. A correlação entre todos os pares de livros foi calculado usando o = PEARSON () função do Excel.
Em seguida, uma matriz de correlações foi criado para cada par de livros, como mostrado a seguir:
Confirmando o resultado anteriormente, a correlação entre o livro A e B é 0,33. A segunda maior correlação é entre Livro Um e Livro D em 0,25.
A correlação entre o Livro B e C do livro é -.48. Essa correlação negativa significa que os clientes que compram Livro B são menos propensos a comprar Livro C.
Portanto, se um cliente está visualizando e pensando em comprar Livro A, não faria sentido para recomendar (e, possivelmente, oferecer esse cliente um incentivo) para também comprar Livro B e D, mas não Reserve C.
Você pode ouvir os termos Análise Basket ou Análise de Afinidade. Ambos são apenas outros nomes para encontrar associações e correlações entre as variáveis. É como examinar cestas de compras dos clientes em um supermercado para ver o que os itens são comprados juntos.