Como identificar dados para análise preditiva
Para o seu projeto de análise preditiva, você precisa identificar fontes apropriadas de dados, dados de piscina a partir dessas fontes, e colocá-lo em um formato bem organizada estruturado. Estas tarefas podem ser muito desafiador e provavelmente vai exigir uma coordenação cuidadosa entre os diferentes administradores de dados em toda a organização.
Você também vai precisar para selecionar as variáveis que você vai analisar. Este processo deve ter restrições de dados, restrições de projeto e objetivos de negócios em consideração.
As variáveis que você selecionar deve ter poder preditivo. Além disso, é preciso considerar as variáveis que são valioso e viável para o seu projeto dentro do orçamento e prazos. Por exemplo, se você está analisando transações bancárias em uma investigação criminal, registros de telefone para todas as partes envolvidas pode ser relevante para a análise, mas não acessíveis aos analistas.
Espere gastar um tempo considerável sobre esta fase do projecto. A coleta de dados, análise de dados e o processo de abordar o conteúdo de dados, qualidade e estrutura pode adicionar até uma lista de tarefas que consomem tempo.
Durante o processo de identificação de dados, que ajuda a compreender os seus dados e sua Properties- esse conhecimento vai ajudá-lo a escolher qual algoritmo usar para construir o seu modelo. Por exemplo, os dados de séries de tempo podem ser analisados por regressão algorithms- algoritmos de classificação podem ser usados para analisar os dados discretos.
seleção de variáveis é afetada pela maneira como você entender os dados. Não se surpreenda se você tem que olhar e avaliar centenas de variáveis, pelo menos no início. Felizmente, como você trabalha com essas variáveis e começar a ganhar insights importantes, você começar a estreitar-los para algumas dezenas. Além disso, esperar que a seleção variável para mudar à medida que sua compreensão das alterações de dados ao longo do projeto.
Você pode achar que é benéfico para construir um inventário de dados que você pode usar para controlar o que você sabe, o que você não sabe, eo que pode estar faltando. O inventário de dados deverá incluir uma listagem dos vários elementos de dados e todos os atributos que são relevantes nas etapas subsequentes do processo.
Por exemplo, você pode querer documentar se todos os segmentos estão faltando CEPs ou registros para um período específico de tempo em falta.
O seu go-to pessoas para conhecimento do negócio (também conhecido como especialistas de conhecimento de domínio) Irá ajudá-lo a selecionar as variáveis-chave que podem influenciar positivamente os resultados de seu projeto. Eles podem ajudar a explicar-lhe a importância dessas variáveis, bem como onde e como obtê-los, entre outras contribuições valiosas.