Como encontrar valor no seu Preditiva Análise de Dados

Qualquer viagem bem sucedida leva preparação séria. modelos de análise preditiva são, essencialmente, um mergulho profundo em grandes quantidades de dados. Se os dados não são bem preparado, o modelo de análise preditiva vão surgir a partir do mergulho sem peixe. A chave para encontrar o valor em análise preditiva é preparar os dados - cuidadosamente e meticulosamente - que o seu modelo vai usar para fazer previsões.

processamento de dados de antemão pode ser um obstáculo no processo de análise preditiva. Ganhando experiência na construção de modelos de previsão - e, em particular, preparação de dados - ensina a importância da paciência. Seleccionar, processamento, limpar e preparar a dados é trabalhoso. É a tarefa mais demorada no ciclo de vida de análise preditiva. No entanto, adequada e sistemática a preparação dos dados irá aumentar significativamente a chance de que os dados do Analytics vai dar frutos.

Embora leva tempo e esforço para construir esse primeiro modelo preditivo, uma vez que você dar o primeiro passo - a construção do primeiro modelo que encontra valor em seus dados - em seguida, os futuros modelos serão menos recurso intensivo e demorado, mesmo com completamente novo conjuntos de dados. Mesmo se você não usar os mesmos dados para o próximo modelo, os analistas de dados terá uma valiosa experiência com o primeiro modelo.

Como aprofundar seus dados análise preditiva

Usando uma analogia fruta, você não só tem que remover o mau casca ou a tampa, mas cavar para chegar ao-núcleo como você chegar mais perto do núcleo, você começa a melhor parte do fruto. A mesma regra se aplica aos dados grandes.

image0.jpg

Noções básicas de validade dos dados análise preditiva

Os dados nem sempre é válido quando você encontrá-lo. A maior parte dos dados é tanto incompleto (Faltando alguns atributos ou valores) ou barulhento (contendo outliers ou erros). Nos campos de bioinformática biomédicas, por exemplo, valores extremos pode levar a analítica para gerar resultados incorretos ou enganosos.

Outliers em dados de câncer, por exemplo, pode ser um fator importante que distorce a precisão dos tratamentos médicos: Amostras Gene-expressão podem aparecer como pontos positivos de câncer falsos porque eles foram analisados ​​em uma amostra que continha erros.

Dados inconsistentes são dados que contém discrepâncias nos atributos de dados. Por exemplo, um registro de dados pode ter dois atributos que não correspondem: por exemplo, um código postal (como 20037) e um estado correspondente (Delaware). dados inválidos podem levar a modelagem preditiva errado, o que leva a resultados analíticos enganosas que fará com que as decisões executivas ruins.

Por exemplo, o envio de cupons para fraldas para as pessoas que não têm filhos é um erro bastante óbvio. Mas pode acontecer facilmente se o departamento de uma empresa de marketing fralda acaba com resultados inválidos de seu modelo de análise preditiva.

Gmail nem sempre pode sugerir as pessoas certas, se você está tentando preencher os potenciais clientes que você pode ter esquecido de incluir em uma lista de e-mail do grupo. Facebook, para dar outro exemplo, pode sugerir amigos que pode não ser o tipo que você está procurando.

Nesses casos, é possível que haja muito grande margem de erro nos modelos ou algoritmos. Na maioria dos casos, as falhas e anomalias são nos dados selecionados inicialmente para alimentar o modelo preditivo -, mas os algoritmos que o poder do modelo preditivo pode ter grandes blocos de dados inválidos.

Noções básicas de variedade de dados em análise preditiva

A ausência de uniformidade nos dados é outro grande desafio conhecido como variedade de dados. Do fluxo infinito de dados não estruturados de texto (gerados através de e-mails, apresentações, relatórios de projectos, textos, tweets) às demonstrações estruturados bancárias, dados de geolocalização e dados demográficos do cliente, as empresas estão morrendo de fome para essa variedade de dados.

Agregar esses dados e prepará-la para análise é uma tarefa complexa. Como você pode integrar os dados gerados a partir de diferentes sistemas, tais como Twitter, Opentable.com, pesquisa do Google, e um terceiro que rastreia os dados do cliente? Bem, a resposta é que não existe uma solução comum. Cada situação é diferente, eo cientista de dados geralmente tem que fazer um monte de manobras para integrar os dados e prepará-la para análise.

Mesmo assim, uma abordagem simples para a normalização podem apoiar a integração de dados de diferentes fontes: Você concorda com os prestadores de seus dados para um formato de dados padrão que o seu sistema pode lidar com - um quadro que pode fazer todas as suas fontes de dados gerar dados que são lidos por ambos os seres humanos e máquinas. Pense nisso como uma nova linguagem que todas as fontes de dados grande falará cada vez que eles estão no mundo em dados grande.

menu