Como usar o K-significa algoritmos de agrupamento em Análise Preditiva

K é uma entrada para o algoritmo para Análisis- preditivo que representa o número de agrupamentos que o algoritmo deve extrair a partir de um conjunto de dados, expressa algebricamente como k. Um algoritmo K-means divide um determinado conjunto de dados em k clusters. O algoritmo executa as seguintes operações:

  1. Escolher k itens aleatórios do conjunto de dados e classificá-los como representantes do cluster.

  2. Associar cada item remanescente no conjunto de dados com o representante mais próximo cluster, utilizando uma distância Euclidiana calculada por uma função de similaridade.

  3. Recalcular representantes dos novos clusters.

  4. Repita as etapas 2 e 3 até que os clusters não mudam.

Um representante de um cluster é a matemática significar (Média) de todos os itens que pertencem ao mesmo cluster. Este representante também é chamado de centróide do cluster. Por exemplo, considere três itens do conjunto de dados de frutas, onde

Tipo 1 corresponde a bananas.
Tipo 2 corresponde a maçãs.
Cor 2 corresponde ao amarelo.
Cor 3 corresponde a verde.

Assumindo que estes artigos são atribuídos ao mesmo grupo, o centróide destes três artigos é calculada.

ItemFunção # 1 TipoCaracterística # 2 CorCaracterística # 3 Peso (Onças)
1125.33
2239.33
3122.1

Aqui estão os cálculos de um representante conjunto de três itens que pertencem ao mesmo cluster. O representante do cluster é um vetor de três atributos. Seus atributos são a média dos atributos dos itens do cluster em questão.

ItemFunção # 1 TipoCaracterística # 2 CorCaracterística # 3 Peso (Onças)
1125.33
2239.33
3122.1
Representante Cluster (Vector Centróide)(1 + 2 + 1) /3=1.33(2 + 3 + 2) /3=2.33(5,33 + 9,33 32,1) / 3 = 3

O conjunto de dados mostrados a seguir consiste em avaliações de dois produtos, A e B. sete dos clientes O ranking representa o número de pontos (entre 0 e 10) de que cada cliente tenha dado a um produto - o mais pontos dada, quanto maior o produto é classificado.

Utilizando um algoritmo K-means e assumindo que k é igual a 2, o conjunto de dados será dividida em dois grupos. O resto do procedimento se parece com isso:

  1. Escolha dois itens aleatórios do conjunto de dados e classificá-los como representantes do cluster.

    O seguinte mostra a etapa inicial de seleção de centroids aleatórios a partir do qual o K-Means processo de agrupamento começa. Os centróides iniciais são selecionados aleatoriamente a partir dos dados que você está prestes a analisar. Neste caso, você está procurando dois clusters, então dois itens de dados são selecionados aleatoriamente: Clientes 1 e 5.

    Na primeira, o processo de agrupamento constrói dois aglomerados em torno desses dois representantes de cluster iniciais (escolhidos aleatoriamente). Em seguida, os representantes de fragmentação são recalculated- o cálculo baseia-se nos itens em cada cluster.

    Identificação do ClienteAvaliações de Clientes do Produto AAvaliações de Clientes do Produto B
    122
    234
    368
    4710
    51014
    6910
    779
  2. Inspecione todos os outros itens (cliente) e atribuí-lo ao representante do cluster ao qual é mais similar.

    Use o Distância euclidiana para calcular como semelhante um item é um grupo de itens:

    Semelhança do inciso I ao Cluster X = sqrt {{{ left ({{f_1} - {x_1}} right)} ^ 2} + {{ left ({{f_2} - {x_2}} right) } ^ 2} + cdots + {{ left ({{f_n} - {x_n}} right)} ^ 2}}

    Os valores {f_1}, - {f_2}, - ldots, - {f_n} são os valores numéricos das características que descrevem o item em questão. Os valores {x_1}, - {X_2}, - ldots, - {x_n} são as características (valores médios) do representante do cluster (centróide), assumindo que cada item tem n características.

    Por exemplo, considere o item chamado Cliente 2 (3, 4): Avaliação do cliente para o produto A foi de 3 e classificação para o produto B foi 4. O recurso representante cluster é (2, 2). A semelhança da Clientes 2 para um cluster é calculado como se segue:

    Semelhança entre o Item 2 para Cluster 1 = sqrt {{{ left ({3 - 2} right)} ^ 2} + {{ left ({4 - 2} right)} ^ 2}} = 2,23

    Aqui está o que o mesmo processo se parece com Cluster 2:

    Semelhança entre o Item 2 para Cluster 2 = sqrt {{{ left ({3 - 10} right)} ^ 2} + {{ left ({4-14} right)} ^ 2}} = 12,20

    Comparando estes resultados, você atribui o item 2 (isto é, Cliente 2) ao Cluster 1 porque os números dizem item 2 é mais semelhante ao cluster 1.

  3. Aplicar a mesma análise de similaridade para todos os outros itens no conjunto de dados.

    Cada vez que um novo membro se junta a um cluster, é preciso recalcular o representante do cluster.

    Isto descreve os resultados da primeira iteração do algoritmo K-média. Notar que k é igual a 2, de modo que você está procurando dois clusters, que divide um conjunto de clientes em dois grupos significativos. Cada cliente é analisada separadamente e é atribuído a um dos agrupamentos com base em semelhança do cliente para cada um dos representantes de fragmentação actual.

  4. Iterar o conjunto de dados de novo, passando por todos os computação element- a semelhança entre cada elemento e seu representante cluster atual.

    Observe que ao Cliente 3 passou de Cluster 1 a Cluster 2. Isso ocorre porque ao Cliente 3 da distância para o representante conjunto de Cluster 2 está mais perto do que o representante conjunto de Cluster 1.

    Representante Cluster (Vector Centróide)
    Cluster 1ID do cliente # 1 (2, 2)
    Cluster 2ID do cliente # 5 (10,14)
    Iteração # 1Cluster do cliente 1Cluster cliente 2
    Cliente a ser examinadoIDs de clientes pertencentes a Cluster 1Representante ClusterIDs de clientes pertencentes a Cluster 1Representante Cluster
    1(2, 2)5(10, 14)
    21, 2(2,4, 3)5(10, 14)
    31, 2, 3(3.6, 4.6)5(10, 14)
    41, 2, 3(3.6, 4.6)4, 5(8,4, 12)
    61, 2, 3(3.6, 4.6)4, 5, 6(8,6, 11,4)
    71, 2, 3(3.6, 4.6)4, 5, 6, 7(8,2, 10,8)

Aqui está uma segunda iteração do K-means em dados do cliente. Cada cliente está sendo re-analisados. Cliente 2 está sendo atribuído ao cluster 1 por cliente 2 está mais perto de o representante do Cluster 1 de Cluster 2. O mesmo cenário se aplica ao cliente 4. Observe que um representante do cluster está sendo recalculada cada vez que um novo membro é atribuído a um cluster.

Iteração # 2Cluster do cliente 1 Cluster cliente 2
Cliente a ser examinadoIDs de clientes pertencentes a Cluster 1Representante ClusterIDs de clientes pertencentes a Cluster 2Representante Cluster
11(3.6, 4.6)5(8,2, 10,8)
21, 2(5,2, 3)5(8,2, 10,8)
31, 2(5,2, 3)5,3(7.8, 10.2)
41, 2(5,2, 3)4, 5.3(7.8, 10.2)
61, 2(5,2, 3)4, 5, 6.3(7.8, 10.2)
71, 2(5,2, 3)3, 4, 5, 6, 7(7.8, 10.2)

menu