Noções básicas de Processo Predictive Analytics Data-Classificações

Em um nível de latão tachas, preditiva classificação de dados analítico consiste em duas fases: a fase de aprendizagem eo estágio de previsão. A fase de aprendizagem implica treinar o modelo de classificação, executando um conjunto designado de dados passados ​​através do classificador. O objetivo é ensinar o seu modelo para extrair e descobrir relações ocultas e regras - o regras de classificação a partir de dados históricos (formação). O modelo faz isso através do emprego de um algoritmo de classificação.

A fase de previsão que segue a fase de aprendizagem consiste em ter o modelo de prever novos rótulos de classe ou valores numéricos que classificam dados que ele não tenha visto antes (isto é, dados de teste).

Para ilustrar esses estágios, suponha que você é o dono de uma loja online que vende relógios. Você já possuía a loja on-line por um bom tempo, e reuniu um monte de dados transacionais e dados pessoais sobre os clientes que compraram os relógios de sua loja. Suponha que você está capturando os dados através de seu site, fornecendo formulários da web, além de os dados transacional que você recolheu através de operações.

Você também pode adquirir dados de uma terceira parte que lhe fornece informações sobre seus clientes fora do seu interesse em relógios. Isso não é tão difícil como sounds- existem empresas cujo modelo de negócios é o de acompanhar os clientes on-line e recolher e vender informações valiosas sobre eles.

A maioria dessas empresas de terceiros reunir dados de sites de mídia social e aplicar métodos de mineração de dados para descobrir a relação de usuários individuais com os produtos. Neste caso, como o proprietário de uma loja de relógio, você estaria interessado na relação entre clientes e seu interesse em comprar relógios.

Pode-se inferir este tipo de informação a partir da análise, por exemplo, um perfil de rede social de um cliente, ou um comentário microblog do tipo que você encontra no Twitter.

Para medir o nível de um indivíduo de interesse em relógios, você pode aplicar qualquer uma das várias ferramentas de texto de análise que pode descobrir essas correlações em texto escrito de um indivíduo (status de redes sociais, tweets, posts de blogs, e tal) ou on-line atividade (como on-line interações sociais, upload de fotos e pesquisas).

Depois de recolher todos os dados sobre transações passadas dos seus clientes e interesses atuais - o dados de treinamento que mostra o seu modelo o que procurar - você vai precisar para organizar em uma estrutura que torna mais fácil para acessar e usar (como um banco de dados).

Neste ponto, você alcançou a segunda fase da classificação de dados: o fase de predição, que é tudo sobre como testar o seu modelo e na precisão das regras de classificação que gerou. Para isso, você vai precisar de dados de clientes históricos adicionais, referidos como dados de teste (Que é diferente a partir dos dados de treinamento).

Você alimenta estes dados de teste em seu modelo e medir a precisão das previsões resultantes. Você contar as vezes que o modelo previu corretamente o comportamento futuro dos clientes representados em seus dados de teste. Você também contar as vezes que o modelo feitas previsões erradas.

Neste ponto, você tem apenas dois resultados possíveis: ou você está satisfeito com a precisão do modelo ou você não é:

  • Se você estiver satisfeito, então você pode começar a receber o seu modelo pronto para fazer previsões como parte de um sistema de produção.

  • Se você não está feliz com a previsão, então você precisa treinar seu modelo com um novo conjunto de dados de treinamento.

Se os seus dados formação original não era suficientemente representativo do conjunto dos seus clientes - ou continha dados ruidosos que jogou fora os resultados do modelo através da introdução de sinais falsos - então não há mais trabalho a fazer para obter o seu modelo em funcionamento. Qualquer resultado é útil no seu caminho.

menu