As limitações dos dados em análise preditiva
Tal como acontece com muitos aspectos de qualquer sistema de negócios, os dados é uma criação humana - por isso é susceptível de ter alguns limites sobre a sua usabilidade quando você primeiro obtê-lo. Aqui está um resumo de algumas limitações que você é provável encontrar:
Os dados podem ser incompleta. Os valores em falta, até mesmo a falta de uma seção ou uma parte substancial dos dados, poderia limitar a sua usabilidade.
Por exemplo, seus dados podem abranger apenas uma ou duas condições de um conjunto maior de que você está tentando modelo - como quando um modelo construído para analisar o desempenho do mercado de ações só tem dados disponíveis a partir dos últimos 5 anos, o que distorce os dados e o modelo para a hipótese de um mercado de touro.
No momento em que o mercado sofre qualquer correção que leva a um mercado de urso, o modelo não consegue adaptar-se - simplesmente porque não foi treinado e testado com dados que representa um mercado de urso.
Certifique-se de que você está olhando para um período de tempo que lhe dá uma visão completa das flutuações naturais do seu data- seus dados não deve ser limitado por sazonalidade.
Se você estiver usando dados de pesquisas, tenha em mente que as pessoas nem sempre fornecem informações precisas. Nem todo mundo vai responder a verdade sobre (digamos) quantas vezes eles exercem - ou quantas bebidas alcoólicas que consomem - por semana. As pessoas não podem ser desonesto tanto como auto-consciente, mas os dados ainda está inclinado.
Os dados recolhidos a partir de diferentes fontes podem variar em qualidade e formato. Os dados recolhidos a partir de fontes diversas como pesquisas, e-mails, formulários de entrada de dados e site da empresa terá diferentes atributos e estruturas. Dados de várias fontes podem não ter muito a compatibilidade entre os campos de dados. Tais dados exige grande pré-processamento antes que seja análise pronta. A barra lateral que acompanha fornece um exemplo.
Os dados coletados de várias fontes podem ter diferenças de formatação, registros duplicados e inconsistências entre campos de dados mescladas. Espere gastar muito tempo a limpeza desses dados - e ainda mais validando sua confiabilidade.
Para determinar as limitações de seus dados, certifique-se de:
Verifique todas as variáveis que você vai usar em seu modelo.
Avaliar o alcance dos dados, especialmente ao longo do tempo, para que o seu modelo pode evitar a armadilha sazonalidade.
Verifique se os valores em falta, identificá-los, e avaliar o seu impacto sobre a análise global.
Atente para valores extremos (outliers) e decidir sobre a possibilidade de incluí-los na análise.
Confirmar que o conjunto de dados de treinamento e teste é grande o suficiente.
Certificar-se de que tipo de dados (inteiros, valores decimais ou caracteres, e assim por diante) está correta e definir os limites superiores e inferiores de valores possíveis.
Preste atenção extra para a integração de dados quando os dados vem de várias fontes.
Certifique-se de entender as suas fontes de dados e seu impacto sobre a qualidade geral de seus dados.
Escolha um conjunto de dados relevante que é representativa de toda a população.
Escolha os parâmetros certos para a sua análise.
Mesmo depois de todo esse cuidado e atenção, não se surpreenda se os seus dados ainda precisa de pré-processamento antes que você possa analisá-lo com precisão. Pré-processamento, muitas vezes leva muito tempo e esforço significativo porque tem que abordar várias questões relacionadas com os dados originais - estes problemas incluem:
Quaisquer valores em falta a partir dos dados.
Quaisquer inconsistências e / ou erros nos dados existente.
Quaisquer duplicados ou valores extremos nos dados.
Qualquer normalização ou qualquer outra transformação dos dados.
Quaisquer dados derivados necessários para a análise.