Noções básicas de K-meios e DBSCAN Clustering Modelos para análise preditiva
aprendizagem não supervisionada tem muitos desafios para análise preditiva - incluindo não saber o que esperar quando você executar um algoritmo. Cada algoritmo irá produzir para os resultados diferentes que você nunca vai ter certeza se um resultado é melhor que o outro - ou mesmo se o resultado é de qualquer valor.
Quando você sabe que os resultados devem ser, você pode ajustar os algoritmos para produzir os resultados desejados. Em conjuntos de dados do mundo real, você não terá esse luxo. Você vai ter que depender de algum conhecimento prévio dos dados - ou intuição - para decidir quais parâmetros de inicialização e algoritmos para usar como você criar o seu modelo.
Em tarefas reais de aprendizagem não supervisionada, no entanto, esse conhecimento prévio não está disponível e o resultado desejado é difícil de encontrar. Escolhendo o número certo de clusters é o problema fundamental. Se acontecer de você tropeçar em cima o número certo de clusters, os seus dados irá produzir insights que você pode fazer previsões de alta precisão. Por outro lado, supondo que o número errado de clusters podem produzir resultados abaixo da média.
K-means é uma boa escolha para conjuntos de dados que têm um pequeno número de clusters com tamanhos proporcionais e dados linearmente separáveis - e você pode aumentá-lo para usar o algoritmo em grandes conjuntos de dados.
Imagine linearmente separáveis dados como um grupo de pontos num gráfico que podem ser separados utilizando uma linha recta. Se os dados não são linearmente separáveis, então versões mais avançadas de K-means terá que ser empregues - o que vai tornar-se mais caro computacionalmente e podem não ser adequados para grandes conjuntos de dados. Na sua implementação padrão, a complexidade para calcular os centros de fragmentação e as distâncias é baixa.
K-means é amplamente empregado para resolver os problemas de dados grande, porque é simples de usar, eficaz e altamente escalável. Não admira que a maioria dos fornecedores comerciais usar o K-means como um componente chave de seus pacotes de análise preditiva.
O DBSCAN (aglomeração espacial baseado na densidade de aplicações com Noise) Aplicação em scikit-learn não requer quaisquer parâmetros de inicialização definidos pelo usuário para criar uma instância. Você pode substituir os parâmetros padrão durante a inicialização se quiser. Infelizmente, se você estiver usando os parâmetros padrão, o algoritmo pode não fornecer uma correspondência aproximada ao resultado desejado.
DBSCAN é mais adequado para conjuntos de dados que têm tamanhos de cluster desproporcionais, e cujos dados podem ser separados de uma forma não-linear. Como K-means, DBSCAN é escalável, mas usá-lo em grandes conjuntos de dados requer mais memória e poder de computação.