Noções básicas de modelos de classificação dos valores previstos analiticamente
Uma vez que você tem todas as ferramentas e informações necessárias para começar a criar um modelo preditivo, a diversão começa. Em geral, a criação de um modelo de aprendizagem para tarefas de classificação implicará as seguintes etapas:
Carregar os dados.
Escolha um classificador.
Treinar o modelo.
Visualize o modelo.
Testar o modelo.
Avaliar o modelo.
Tanto a regressão logística e modelos de classificação Support Vector Machine (SVM) executam muito bem usando o conjunto de dados Iris.
sepal Comprimento | sepal Largura | Comprimento pétala | pétala Largura | Classe Alvo / etiqueta |
---|---|---|---|---|
5.1 | 3,5 | 1.4 | 0,2 | Setosa (0) |
7 | 3.2 | 4.7 | 1.4 | Versicolor (1) |
6.3 | 3.3 | 6 | 2.5 | Virginica (2) |
O modelo de regressão logística com o parâmetro C = 1 foi perfeito em suas previsões, enquanto o modelo SVM eo modelo de regressão logística com C = 150 perdeu apenas uma previsão. De fato, a alta precisão de ambos os modelos é um resultado de ter um pequeno conjunto de dados que tem pontos de dados que estão muito perto de linearmente separáveis.
Curiosamente, o modelo de regressão logística com C = 150 teve um plot de superfície decisão mais bonito do que aquele com C = 1, mas não um melhor desempenho. Isso não é um negócio tão grande, considerando que o conjunto de teste é tão pequeno. Se outro grupo aleatório entre conjunto de treinamento e conjunto de teste foram selecionados, os resultados poderiam facilmente ter sido diferente.
Isso revela uma outra fonte de complexidade que surge na avaliação do modelo: o efeito da amostragem, e como escolher o treinamento e testes conjuntos pode afetar o resultado do modelo. técnicas de validação cruzada pode ajudar a minimizar o impacto da amostragem aleatória no desempenho do modelo.
Para um conjunto de dados maior com dados não-linearmente separáveis, que seria de esperar os resultados para desviar-se ainda mais. Além disso, a escolha do modelo apropriado torna-se cada vez mais difícil devido à complexidade e o tamanho dos dados. Esteja preparado para gastar uma grande quantidade de tempo ajustar seus parâmetros para obter um ajuste ideal.
Ao criar modelos preditivos, tente alguns algoritmos e exaustivamente ajustar seus parâmetros até encontrar o que funciona melhor para seus dados. Em seguida, comparar as suas saídas uns contra os outros.