Como usar o K-significa algoritmos de agrupamento em Análise Preditiva
K é uma entrada para o algoritmo para Análisis- preditivo que representa o número de agrupamentos que o algoritmo deve extrair a partir de um conjunto de dados, expressa algebricamente como k. Um algoritmo K-means divide um determinado conjunto de dados em k clusters. O algoritmo executa as seguintes operações:
Escolher k itens aleatórios do conjunto de dados e classificá-los como representantes do cluster.
Associar cada item remanescente no conjunto de dados com o representante mais próximo cluster, utilizando uma distância Euclidiana calculada por uma função de similaridade.
Recalcular representantes dos novos clusters.
Repita as etapas 2 e 3 até que os clusters não mudam.
Um representante de um cluster é a matemática significar (Média) de todos os itens que pertencem ao mesmo cluster. Este representante também é chamado de centróide do cluster. Por exemplo, considere três itens do conjunto de dados de frutas, onde
Tipo 1 corresponde a bananas.
Tipo 2 corresponde a maçãs.
Cor 2 corresponde ao amarelo.
Cor 3 corresponde a verde.
Assumindo que estes artigos são atribuídos ao mesmo grupo, o centróide destes três artigos é calculada.
Item | Função # 1 Tipo | Característica # 2 Cor | Característica # 3 Peso (Onças) |
---|---|---|---|
1 | 1 | 2 | 5.33 |
2 | 2 | 3 | 9.33 |
3 | 1 | 2 | 2.1 |
Aqui estão os cálculos de um representante conjunto de três itens que pertencem ao mesmo cluster. O representante do cluster é um vetor de três atributos. Seus atributos são a média dos atributos dos itens do cluster em questão.
Item | Função # 1 Tipo | Característica # 2 Cor | Característica # 3 Peso (Onças) |
---|---|---|---|
1 | 1 | 2 | 5.33 |
2 | 2 | 3 | 9.33 |
3 | 1 | 2 | 2.1 |
Representante Cluster (Vector Centróide) | (1 + 2 + 1) /3=1.33 | (2 + 3 + 2) /3=2.33 | (5,33 + 9,33 32,1) / 3 = 3 |
O conjunto de dados mostrados a seguir consiste em avaliações de dois produtos, A e B. sete dos clientes O ranking representa o número de pontos (entre 0 e 10) de que cada cliente tenha dado a um produto - o mais pontos dada, quanto maior o produto é classificado.
Utilizando um algoritmo K-means e assumindo que k é igual a 2, o conjunto de dados será dividida em dois grupos. O resto do procedimento se parece com isso:
Escolha dois itens aleatórios do conjunto de dados e classificá-los como representantes do cluster.
O seguinte mostra a etapa inicial de seleção de centroids aleatórios a partir do qual o K-Means processo de agrupamento começa. Os centróides iniciais são selecionados aleatoriamente a partir dos dados que você está prestes a analisar. Neste caso, você está procurando dois clusters, então dois itens de dados são selecionados aleatoriamente: Clientes 1 e 5.
Na primeira, o processo de agrupamento constrói dois aglomerados em torno desses dois representantes de cluster iniciais (escolhidos aleatoriamente). Em seguida, os representantes de fragmentação são recalculated- o cálculo baseia-se nos itens em cada cluster.
Identificação do Cliente Avaliações de Clientes do Produto A Avaliações de Clientes do Produto B 1 2 2 2 3 4 3 6 8 4 7 10 5 10 14 6 9 10 7 7 9 Inspecione todos os outros itens (cliente) e atribuí-lo ao representante do cluster ao qual é mais similar.
Use o Distância euclidiana para calcular como semelhante um item é um grupo de itens:
Semelhança do inciso I ao Cluster X = sqrt {{{ left ({{f_1} - {x_1}} right)} ^ 2} + {{ left ({{f_2} - {x_2}} right) } ^ 2} + cdots + {{ left ({{f_n} - {x_n}} right)} ^ 2}}
Os valores {f_1}, - {f_2}, - ldots, - {f_n} são os valores numéricos das características que descrevem o item em questão. Os valores {x_1}, - {X_2}, - ldots, - {x_n} são as características (valores médios) do representante do cluster (centróide), assumindo que cada item tem n características.
Por exemplo, considere o item chamado Cliente 2 (3, 4): Avaliação do cliente para o produto A foi de 3 e classificação para o produto B foi 4. O recurso representante cluster é (2, 2). A semelhança da Clientes 2 para um cluster é calculado como se segue:
Semelhança entre o Item 2 para Cluster 1 = sqrt {{{ left ({3 - 2} right)} ^ 2} + {{ left ({4 - 2} right)} ^ 2}} = 2,23
Aqui está o que o mesmo processo se parece com Cluster 2:
Semelhança entre o Item 2 para Cluster 2 = sqrt {{{ left ({3 - 10} right)} ^ 2} + {{ left ({4-14} right)} ^ 2}} = 12,20
Comparando estes resultados, você atribui o item 2 (isto é, Cliente 2) ao Cluster 1 porque os números dizem item 2 é mais semelhante ao cluster 1.
Aplicar a mesma análise de similaridade para todos os outros itens no conjunto de dados.
Cada vez que um novo membro se junta a um cluster, é preciso recalcular o representante do cluster.
Isto descreve os resultados da primeira iteração do algoritmo K-média. Notar que k é igual a 2, de modo que você está procurando dois clusters, que divide um conjunto de clientes em dois grupos significativos. Cada cliente é analisada separadamente e é atribuído a um dos agrupamentos com base em semelhança do cliente para cada um dos representantes de fragmentação actual.
Iterar o conjunto de dados de novo, passando por todos os computação element- a semelhança entre cada elemento e seu representante cluster atual.
Observe que ao Cliente 3 passou de Cluster 1 a Cluster 2. Isso ocorre porque ao Cliente 3 da distância para o representante conjunto de Cluster 2 está mais perto do que o representante conjunto de Cluster 1.
Representante Cluster (Vector Centróide) Cluster 1 ID do cliente # 1 (2, 2) Cluster 2 ID do cliente # 5 (10,14) Iteração # 1 Cluster do cliente 1 Cluster cliente 2 Cliente a ser examinado IDs de clientes pertencentes a Cluster 1 Representante Cluster IDs de clientes pertencentes a Cluster 1 Representante Cluster 1 (2, 2) 5 (10, 14) 2 1, 2 (2,4, 3) 5 (10, 14) 3 1, 2, 3 (3.6, 4.6) 5 (10, 14) 4 1, 2, 3 (3.6, 4.6) 4, 5 (8,4, 12) 6 1, 2, 3 (3.6, 4.6) 4, 5, 6 (8,6, 11,4) 7 1, 2, 3 (3.6, 4.6) 4, 5, 6, 7 (8,2, 10,8)
Aqui está uma segunda iteração do K-means em dados do cliente. Cada cliente está sendo re-analisados. Cliente 2 está sendo atribuído ao cluster 1 por cliente 2 está mais perto de o representante do Cluster 1 de Cluster 2. O mesmo cenário se aplica ao cliente 4. Observe que um representante do cluster está sendo recalculada cada vez que um novo membro é atribuído a um cluster.
Iteração # 2 | Cluster do cliente 1 | Cluster cliente 2 | ||
---|---|---|---|---|
Cliente a ser examinado | IDs de clientes pertencentes a Cluster 1 | Representante Cluster | IDs de clientes pertencentes a Cluster 2 | Representante Cluster |
1 | 1 | (3.6, 4.6) | 5 | (8,2, 10,8) |
2 | 1, 2 | (5,2, 3) | 5 | (8,2, 10,8) |
3 | 1, 2 | (5,2, 3) | 5,3 | (7.8, 10.2) |
4 | 1, 2 | (5,2, 3) | 4, 5.3 | (7.8, 10.2) |
6 | 1, 2 | (5,2, 3) | 4, 5, 6.3 | (7.8, 10.2) |
7 | 1, 2 | (5,2, 3) | 3, 4, 5, 6, 7 | (7.8, 10.2) |