Como usar Curve Fitting em análise preditiva

Ajuste de curva

é um processo utilizado em análises preditivas em que o objetivo é criar uma curva que mostra a função matemática que melhor se adapta os reais pontos de dados (originais) em uma série de dados.

A curva pode passar através de cada ponto de dados ou ficar dentro da maior parte dos dados, ignorando alguns pontos de dados na esperança de tiragem tendências dos dados. Em ambos os casos, uma função matemática simples é atribuído a todo o corpo de dados, com o objectivo de ajustar todos os pontos de dados para uma curva que delineia as tendências e os auxiliares de predição.

image0.jpg

de ajuste de curva pode ser conseguido em uma de três maneiras:

  • Ao encontrar um ajuste exacto para cada ponto de dados (um processo chamado interpolação)

  • Ao ficar dentro da maior parte dos dados, ignorando alguns dos pontos de dados na esperança de tendências de desenho a partir dos dados

  • Ao empregar a suavização de dados para chegar a uma função que representa o gráfico alisou

de ajuste de curva pode ser utilizado para preencher as possíveis pontos de dados para substituir os valores em falta ou ajudar analistas visualizar os dados.

Quando você está trabalhando para gerar um modelo de análise preditiva, evite adaptar seu modelo para caber sua amostra de dados perfeitamente. Tal modelo falhará - miseravelmente - para prever conjuntos de dados ainda variando semelhantes fora da amostra de dados. Ajustamento de um modelo muito de perto a uma amostra de dados em particular é um erro clássico chamado overfitting.

As desgraças de overfitting

Em essência, overfitting um modelo é o que acontece quando você overtrain o modelo para representar apenas a sua amostra de dados - o que não é uma boa representação dos dados como um todo. Sem um conjunto de dados mais realistas para continuar, o modelo pode, então, ser atormentado com erros e riscos quando vai operacional - e as consequências para o seu negócio pode ser grave.

Overfitting um modelo é uma armadilha comum porque as pessoas querem criar modelos que trabalham - e assim são tentados a manter variáveis ​​de ajustes e parâmetros até que o modelo executa perfeitamente - por muito poucos dados. Errar é humano. Felizmente, é também humana para criar soluções realistas.

Para evitar overfitting seu modelo para o conjunto de dados de amostra, certifique-se de ter um corpo de dados de ensaios disponíveis, que é separada de seus dados de amostra. Depois, você pode medir o desempenho do seu modelo de forma independente antes de fazer o modelo operacional.

Assim, uma salvaguarda geral contra overfitting é dividir seus dados para duas partes: a formação de dados de dados e teste. O desempenho do modelo com os dados de teste irá dizer-lhe muito sobre se o modelo está pronto para o mundo real.

Outra prática recomendada é ter certeza de que seus dados representa o maior população do domínio que você está modelando para. Tudo um modelo overtrained sabe é as características específicas do conjunto de dados de amostra é treinado. Se você treinar o modelo apenas em vendas com raquetes de neve (digamos) no inverno, não se surpreenda se ele falhar miseravelmente quando ele é executado novamente em dados de qualquer outra estação.

Como evitar overfitting

Vale a pena repetir: Demasiado ajustes do modelo é capaz de resultar em overfitting. Um tal ajuste está incluindo muitas variáveis ​​em análise. Manter essas variáveis ​​para um mínimo. incluir apenas as variáveis ​​que você vê como absolutamente necessário - aqueles que você acha que vai fazer uma diferença significativa para o resultado.

Essa percepção só vem de um conhecimento íntimo do domínio do negócio em que está. É aí que a experiência de especialistas de domínio pode ajudar a mantê-lo de cair na armadilha de overfitting.

Aqui está uma lista das melhores práticas para ajudar a evitar overfitting o seu modelo:

  • Escolheu um conjunto de dados para trabalhar com que seja representativa da população como um todo.

  • Divida o seu conjunto de dados para duas partes: a formação de dados de dados e teste.

  • Mantenha as variáveis ​​analisadas ao mínimo saudável para a tarefa em mãos.

  • Conte com a ajuda de especialistas de conhecimento de domínio.

No mercado de ações, por exemplo, uma técnica analítica clássica é back-teste - a execução de um modelo com dados históricos para procurar a melhor estratégia de negociação.

Suponha que, depois de executar o seu novo modelo com os dados gerados por um mercado recente touro, e aprimorando o número de variáveis ​​utilizadas em sua análise, o analista cria o que parece ser uma estratégia de negociação ideal - um que iria produzir os maiores retornos E se ele poderia voltar e negociar apenas durante o ano em que produziu os dados de teste. Infelizmente, ele não pode.

Se ele tenta aplicar esse modelo em um mercado de urso atual, veja a seguir: Ele vai incorrer em perdas por aplicação de um modelo muito otimizado por um período limitado de tempo e um conjunto de condições que não se encaixam realidades atuais. (Tanto para os lucros hipotéticos.)

O modelo funcionou apenas para que desapareceu mercado de touro porque era overtrained, tendo os sinais de contexto que produziu os dados de exemplo - com as suas especificidades, outliers e deficiências. Todas as circunstâncias que envolvem esse conjunto de dados provavelmente não vai ser repetido no futuro, ou em uma verdadeira representação de toda a população - mas todos eles apareceram no modelo overfitted.

Se a saída do modelo é muito preciso, consideram que uma dica para dar uma olhada. Conte com a ajuda de especialistas de conhecimento de domínio para ver se os resultados são realmente bom demais para ser verdade, e executar esse modelo em mais dados de teste para futuras comparações.

menu