Noções básicas de agrupamentos de dados em Análise Preditiva
UMA dataset (Ou coleta de dados) é um conjunto de itens em análise preditiva. Por exemplo, um conjunto de documentos é um conjunto de dados onde os itens de dados são documentos. Um conjunto de indicadores sociais informações usuários da rede '(nome, idade, lista de amigos, fotos e assim por diante) é um conjunto de dados onde os itens de dados são perfis de usuários da rede social.
agrupamento de dados é a tarefa de dividir um conjunto de dados em subconjuntos de itens semelhantes. Os itens também podem ser referidos como exemplos, a observação, entidades ou objetos de dados. Na maioria dos casos, um conjunto de dados está representada em formato de tabela - uma matriz de dados. Um matriz de dados é uma tabela de números, documentos ou expressões, representada em linhas e colunas como se segue:
Cada linha corresponde a um determinado item no conjunto de dados.
As linhas são, por vezes, referido como itens, objetos, instâncias ou observações.
Cada coluna representa uma característica particular de um item.
As colunas são referidas como características ou atributos.
Aplicando agrupamento de dados para um conjunto de dados gera grupos de itens de dados semelhantes. Estes grupos são chamados aglomerados - coleções de itens de dados semelhantes.
Semelhante artigos têm uma relação forte e mensurável entre eles - legumes frescos, por exemplo, são mais semelhantes entre si do que para alimentos congelados - e técnicas de agrupamento usar essa relação para agrupar os itens.
A força de uma relação entre duas ou mais artigos podem ser quantificados como um medida de similaridade: Uma função matemática calcula a correlação entre dois itens de dados. Os resultados destes cálculos, chamados valores de similaridade, essencialmente comparar um item de dados em particular a todos os outros itens do conjunto de dados. Esses outros itens será tanto mais semelhantes ou menos semelhante em relação a esse item específico.
semelhanças calculadas desempenhar um papel importante na atribuição de itens para os grupos (aglomerados). Cada grupo tem um item que melhor representa ele- este produto é referido como um representante do cluster.
Considere um conjunto de dados que consiste de vários tipos de frutas em uma cesta. A cesta tem frutos de diferentes tipos, tais como maçãs, bananas, limões e peras. Neste caso, as frutas são os itens de dados. O processo de agrupamento de dados extrai grupos de frutas semelhantes fora deste conjunto de dados (cesta de frutas diferentes).
O primeiro passo de um processo de agrupamento de dados é traduzir este conjunto de dados em uma matriz de dados: Uma maneira de modelar este conjunto de dados é ter as linhas representam os itens do conjunto de dados (frutas) - e as colunas representam características, ou características, que descrevem os itens.
Por exemplo, um recurso de fruta pode ser o tipo de frutas (como uma banana ou maçã), peso, cor ou preço. Neste exemplo de conjunto de dados, os itens têm três características: tipo de fruto, cor e peso.
Na maioria dos casos, a aplicação de uma técnica de agrupamento de dados para o conjunto de dados de frutas, tal como descrito acima permite
Recuperar grupos (clusters) de itens semelhantes. Você pode dizer que o seu fruto é de N número de grupos. Depois disso, se você pegar uma fruta aleatório, você será capaz de fazer uma declaração sobre esse item como sendo parte de um dos grupos N.
Recuperar representantes de cluster de cada grupo. Neste exemplo, um representante de cluster seria escolher um tipo de fruto da cesta e colocá-lo de lado. As características desta fruta são tais que esse fruto melhor representa o cluster ao qual pertence.
Quando estiver pronto clustering, o conjunto de dados é organizado e dividido em agrupamentos naturais.
agrupamento de dados revela estrutura nos dados extraindo agrupamentos naturais a partir de um conjunto de dados. Portanto descobrindo grupos é um passo essencial para a formulação de ideias e hipóteses sobre a estrutura dos seus dados e derivar conhecimentos para melhor compreendê-lo.
agrupamento de dados também pode ser uma maneira de modelar dados: Representa um conjunto maior de dados por aglomerados ou representantes de cluster.
Além disso, a sua análise pode procurar simplesmente para particionar os dados em grupos de itens semelhantes - como quando segmentação de mercado partições de dados para o mercado-alvo em grupos, tais como
Os consumidores que compartilham os mesmos interesses (como cozinha mediterrânica)
Os consumidores que têm necessidades comuns (por exemplo, pessoas com alergias alimentares específicos)
Identificar grupos de clientes semelhantes pode ajudar a desenvolver uma estratégia de marketing que atende às necessidades de grupos específicos.
Além disso, o agrupamento de dados também pode ajudar a identificar, aprender, ou prever a natureza dos novos itens de dados - especialmente como novos dados podem ser ligados a fazer previsões. Por exemplo, em reconhecimento de padrões, analisando padrões nos dados (tais como padrões de compra em determinadas regiões ou grupos de idade) pode ajudar a desenvolver a análise preditiva - neste caso, prever a natureza de itens de dados futuros que podem caber bem com padrões estabelecidos.
O exemplo a cesta de frutas usa agrupamento de dados para distinguir entre diferentes itens de dados. Suponha que sua empresa monta cestas de frutas personalizados e uma nova, fruto desconhecido é introduzido no mercado. Você quer aprender ou prever que cluster o novo item irá pertencer, se você adicioná-lo à cesta de frutas.
Porque você já aplicou agrupamento de dados para o conjunto de dados de frutas, você tem quatro grupos - o que o torna mais fácil de prever que cluster (tipo específico de frutas) é apropriado para o novo item. Tudo que você tem a fazer é comparar o fruto desconhecido aos representantes dos outros quatro agregados »e identificar quais cluster é a melhor correspondência.
Embora este processo pode parecer óbvio para uma pessoa que trabalha com um pequeno conjunto de dados, não é tão óbvio em uma escala maior - quando você tem que agrupar milhões de itens sem examinar cada um. A complexidade torna-se exponencial quando o conjunto de dados é grande, diverso, e relativamente incoerente - que é por isso que existem algoritmos de agrupamento: Computadores fazer esse tipo de trabalho melhor.