Como decidir se quer manter Outliers em análise preditiva
Decidir pela inclusão de outliers na análise - ou para excluí-los - terá implicações para o seu modelo de análise preditiva. Mantendo valores aberrantes como parte dos dados da sua análise pode conduzir a um modelo que não é aplicável - quer para os valores aberrantes ou para o resto dos dados.
Se você decidir manter um outlier, você precisa escolher as técnicas e métodos estatísticos que se destacam em lidar com valores atípicos sem influenciar a análise. Uma dessas técnicas é a utilização de funções matemáticas, tais como algoritmos naturais e raiz quadrada para reduzir o fosso entre os outliers e o resto dos dados.
Estas funções, no entanto, só funcionam para dados numéricos que é maior do que zero - e podem surgir outros problemas. Por exemplo, transformando os dados podem exigir interpretações da relação entre as variáveis nos dados recém-transformadas que diferem da interpretação que governa as variáveis nos dados originais.
A mera presença de outliers nos dados pode fornecer insights sobre o seu negócio que pode ser muito útil na geração de um modelo robusto. Outliers podem chamar a atenção para um caso de negócios válido que ilustra um pouco significativo evento incomum.
Procurando por valores extremos, identificando-os, e avaliar o seu impacto deve ser parte de análise de dados e pré-processamento. especialistas no domínio do negócio pode fornecer informações e ajudar a decidir o que fazer com casos incomuns em sua análise. Embora o senso comum às vezes é tudo que você precisa para lidar com valores extremos, muitas vezes é útil para pedir a alguém que conhece as cordas.
Se você estiver em um negócio que beneficia de eventos raros - digamos, um observatório astronômico com uma bolsa para estudar asteróides-cruzar-órbita da Terra - você está mais interessado nos valores discrepantes do que na maior parte dos dados.
Outliers pode ser uma grande fonte de informação. Desviando a norma poderia ser um sinal de atividade suspeita, notícias de última hora, ou um evento oportunista ou catastrófico. Pode ser necessário para desenvolver modelos que ajudam a identificar outliers e jumentos os riscos que eles significam.
É prudente a realização de duas análises: uma que inclui valores discrepantes, e um outro que os omite. Em seguida, examinar as diferenças, tentar compreender as implicações de cada método, e avaliar como adotar um método sobre o outro iria influenciar seus objetivos de negócio.