10 erros Mineração de Dados Comum (Que você não vai fazer)

A mineração de dados é feito por tentativa e erro, e assim, para os mineiros de dados, cometer erros é apenas natural. Os erros podem ser valiosos, por outras palavras, pelo menos sob certas condições. No entanto, nem todos os erros são criados iguais,. Alguns são apenas melhor evitado. A lista a seguir oferece dez tais erros. Se você lê-los com cuidado, e cometê-los para a memória, você só pode evitar alguns solavancos sobre a curva de aprendizagem:

  • Pular verificações de qualidade de dados: A maioria dos mineiros de dados acho que o desenvolvimento de modelos preditivos é mais divertido do que rever os dados para problemas de qualidade. Mas se você não conseguir detectar e problemas de qualidade de dados corretos, você pode acabar com as previsões inúteis.

  • Faltando o ponto: Você descobriu algo fascinante! Isso é bom, mas se não é também relevante para o problema de negócio você se propôs a resolver, bem, não é relevante em tudo. Voltar à pista.

  • Acreditando que um padrão nos dados de prova uma relação de causa e efeito: Você explora um conjunto de dados e observe que, quando aumenta uma variável, aumenta B variáveis, também. Isso pode ocorrer por causa A variável A influencia a variável B, ou por influências B variável A. Variável Por outro lado, pode ser que ambos são influenciados por alguma outra variável que não foram considerados. Ou pode ser uma coincidência de uma só vez. Quem pode dizer?

  • Alongamento conclusões longe demais: Não presuma que as relações que você observa nos dados deverá repetir-se em diferentes circunstâncias. Se os dados foram coletados em um ambiente fresco, não assumir que as coisas vão funcionar da mesma maneira em uma configuração de fábrica quente.

  • Apostando em resultados que não fazem sentido: métodos de mineração de dados são informais e não costumam ser apoiados por método científico e da teoria, para que seus resultados melhor que pelo menos fazer sentido para os negócios. Se não há nenhuma explicação senso comum para os resultados que apresentam, a sua gestão executiva provavelmente não vai levá-la a sério, e que não devem.

  • Apaixonar-se com um método de modelagem especial: Não existe um único tipo de modelo de mineração de dados que se adapta a cada situação.

  • Colocando um modelo em produção, sem os testes adequados: Não aposte seu negócio em um modelo preditivo até que você tenha testado com dados de holdout e em pequena escala no campo.

  • Ignorando os resultados que você não gosta: Se você ignorar seus dados agora, ele vai voltar um dia e dizer: "Eu avisei."

  • Usando mineração de dados para atender todas as necessidades de análise de dados: A mineração de dados tem um tremendo valor, no entanto, algumas aplicações ainda chamam de métodos rigorosos de recolha de dados, análise estatística formal, e método científico.

  • Presumindo que as técnicas de análise de dados tradicionais já não importa: Consulte o marcador anterior.

menu