Como Support Vector Machine Análise Preditiva prediz o futuro

o máquinas de vetores de suporte (SVM) é um algoritmo de classificação de dados análise preditiva que atribui novos elementos de dados para uma das categorias rotuladas. SVM é, na maioria dos casos, uma binário classifier- ele assume que os dados em questão contém dois possíveis valores-alvo.

Uma outra versão do algoritmo SVM, multiclasse SVM, aumenta SVM para ser usado como classificador em um conjunto de dados que contém mais de uma classe (agrupamento ou categoria). SVM tem sido usado com sucesso em muitas aplicações, tais como reconhecimento de imagem, diagnóstico médico, e análise de texto.

Suponha que você está projetando um modelo de análise preditiva que irá reconhecer e prever o nome de um objeto em uma imagem automaticamente. Isto é essencialmente o problema de reconhecimento de imagem - ou, mais especificamente, reconhecimento de face: Você quer o classificador para reconhecer o nome de uma pessoa em uma foto.

Bem, antes de abordar esse nível de complexidade, considere uma versão mais simples do mesmo problema: Suponha que você tem fotos de peças individuais de frutas e você gostaria que seu classificador de prever que tipo de fruto aparece na imagem. Suponha que você tem apenas dois tipos de frutas: maçãs e peras, um por imagem.

Dada uma nova imagem, que você gostaria de prever se o fruto é uma maçã ou uma pêra - sem olhar para a foto. Você quer que o SVM para classificar cada imagem como maçã ou pêra. Tal como acontece com todos os outros algoritmos, o primeiro passo é formar o classificador.

Suponha que você tem 200 imagens de diferentes maçãs, e 200 fotografias de pêras. A etapa de aprendizagem consiste em alimentar essas imagens para o classificador para que ele aprende o que uma maçã parece eo que uma pêra parece. Antes de chegar a este primeiro passo, você precisa transformar cada imagem em uma matriz de dados, usando (digamos) o pacote estatístico R.

Uma maneira simples para representar uma imagem como números em uma matriz é procurar formas geométricas dentro da imagem (tais como círculos, linhas, quadrados ou retângulos) e também as posições de cada instância de cada forma geométrica. Estes números também pode representar as coordenadas desses objectos dentro da imagem, como representados num sistema de coordenadas.

Como você pode imaginar, o que representa uma imagem como uma matriz de números não é exatamente uma tarefa simples. Toda uma área distinta da pesquisa é dedicado à representação da imagem.

O seguinte mostra como uma máquina de vetores de suporte podem predizer a classe de uma fruta (rotulando-a matematicamente como maçã ou pera), Com base no que o algoritmo tenha aprendido no passado.

image0.jpg

Suponha que você converteu todas as imagens em matrizes de dados. Em seguida, a máquina de vetor de suporte tem duas entradas principais:

  • Anterior dados (treinamento): Este conjunto de matrizes corresponde ao visto anteriormente imagens de maçãs e peras.

  • Os novos dados (invisível) consiste de uma imagem convertida em uma matriz. O objetivo é prever automaticamente o que está na foto - uma maçã ou uma pêra.

O vector de suporte usa uma função matemática, muitas vezes chamado de função de kernel que é uma função matemática que combina com os novos dados para a melhor imagem a partir dos dados de treinamento, a fim de prever o rótulo do quadro desconhecido (maçã ou pêra).

Em comparação com outros classificadores, máquinas de vetores de suporte produzir robustas, previsões precisas, são menos afetados por dados ruidosos, e são menos propensas a overfitting. Tenha em mente, no entanto, que suportam máquinas de vetores são os mais apropriados para a classificação binária - quando você tem apenas duas categorias (tais como maçã ou pêra).

menu