Como resumir um conjunto de dados no R

Se você precisar de uma rápida visão geral do conjunto de dados, você pode, é claro, sempre use o comando R str ()

e olhar para a estrutura. Mas isto diz-lhe algo que apenas sobre as classes de suas variáveis ​​e o número de observações. Além disso, a função cabeça() dá-lhe, na melhor das hipóteses, uma ideia da forma como os dados são armazenados no conjunto de dados.

Como chegar a saída

Para ter uma ideia melhor da distribuição das suas variáveis ​​no conjunto de dados, você pode usar o resumo() funcionar como este:

> Resumo (carros) mpg cil am gearMin. : 10.40 min. : 4.000 auto: 13 3: 151 Qu.:15.43 primeiro Qu.:4.000 manual: 19 4: 12Median: 19.20 mediana: 6,0005: 5Mean: 20.09 Média: 6.1883rd Qu.:22.80 3ª Qu.:8.000Max. : 33.90 Max. : 8.000

o resumo() função funciona melhor se você usar apenas R interativamente na linha de comando para a digitalização de seu conjunto de dados rapidamente. Você não deve tentar usá-lo dentro de uma função personalizada que você escreveu-se.

A saída do resumo() página mostra para cada variável de um conjunto de estatísticas descritivas, dependendo do tipo da variável:

  • As variáveis ​​numéricas: resumo() dá-lhe a faixa, quartis, a mediana ea média.

  • Variáveis ​​fator: resumo() dá-lhe uma tabela com frequências.

  • Numéricos e fator de variáveis: resumo() dá-lhe o número de valores perdidos, se houver algum.

  • variáveis ​​de caracteres: resumo() não lhe dá qualquer tipo de informação para além do comprimento e da classe (que é 'personagem').

Como corrigir um problema

Você viu os valores estranhos para a variável cil? Um rápido olhar para o resumo pode dizer-lhe que há algo suspeito acontecendo, como, por exemplo, o mínimo eo primeiro quartil têm exatamente o mesmo valor. Na verdade, a variável cil tem apenas três valores e seria melhor como um fator. Então, vamos colocar essa variável fora de sua miséria:

> Cars $ cil lt; - as.factor (carros $ CYL)

menu