Como preparar os dados em um modelo R Classification Predictive Analytics
A fim de executar uma análise preditiva, você tem que obter os dados em um formulário que o algoritmo pode usar para construir um modelo. Para fazer isso, você tem que levar algum tempo para entender os dados e conhecer sua estrutura. Tipo na função para encontrar a estrutura dos dados. Aqui está o que parece:
> Str (sementes) 'data.frame': 210 obs. de 8 variáveis: $ V1: num 15,3 14,9 14,3 13,8 16,1 ... $ V2: num 14,8 14,6 14,1 13,9 15 ... $ V3: num 0,871 0,881 0,905 0,895 0,903 ... $ V4: num 5,76 5,55 5,29 5,32 5,66. .. $ V5: num 3.31 3.33 3.34 3.38 3.56 ... $ V6: num 2.22 1.02 2.7 2.26 1.35 ... $ V7: num 5,22 4,96 4,83 4,8 5,17 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ...
De olhar para a estrutura, você pode dizer que os dados precisam um passo de pré-processamento e um passo de conveniência:
Renomear os nomes das colunas. Isto não é estritamente necessário, mas para os fins deste exemplo, é mais conveniente usar nomes de coluna você pode entender e lembrar.
Altere o atributo com valores categóricos a um fator. A etiqueta tem três categorias possíveis.
Para renomear as colunas, digite o seguinte código:
> COLNAMES (sementes) lt; -
c ( "Área", "perímetro", "compactação", "comprimento", "width", "assimetria", "length2", "seedType")
Em seguida, altere o atributo que tem valores categóricos a um fator. O código a seguir altera o tipo de dados a um fator:
> Sementes $ seedType lt; - Factor (sementes $ seedType)
Este comando termina a preparação dos dados para o processo de modelagem. O que se segue é uma visão da estrutura após o processo de preparação de dados:
> Str (ervas daninhas) 'data.frame': 210 obs. de 8 variáveis: $ Área: num 15,3 14,9 14,3 13,8 16,1 ... $ perímetro: num 14,8 14,6 14,1 13,9 15 ... $ compacidade: num 0,871 0,881 0,905 0,895 0,903 ... $ comprimento: Num 5,76 5,55 5,29 5,32 5,66. .. $ width: num 3.31 3.33 3.34 3.38 3.56 ... $ assimetria: num 2.22 1.02 2.7 2.26 1.35 ... $ length2: num 5,22 4,96 4,83 4,8 5,17 ... $ seedType: Fator w / 3 níveis "1", "2", "3": 1 1 1 1 1 1 1 1 1 1 ...