Como resumir um conjunto de dados no R
Se você precisar de uma rápida visão geral do conjunto de dados, você pode, é claro, sempre use o comando R str ()
e olhar para a estrutura. Mas isto diz-lhe algo que apenas sobre as classes de suas variáveis e o número de observações. Além disso, a função cabeça() dá-lhe, na melhor das hipóteses, uma ideia da forma como os dados são armazenados no conjunto de dados.Como chegar a saída
Para ter uma ideia melhor da distribuição das suas variáveis no conjunto de dados, você pode usar o resumo() funcionar como este:
> Resumo (carros) mpg cil am gearMin. : 10.40 min. : 4.000 auto: 13 3: 151 Qu.:15.43 primeiro Qu.:4.000 manual: 19 4: 12Median: 19.20 mediana: 6,0005: 5Mean: 20.09 Média: 6.1883rd Qu.:22.80 3ª Qu.:8.000Max. : 33.90 Max. : 8.000
o resumo() função funciona melhor se você usar apenas R interativamente na linha de comando para a digitalização de seu conjunto de dados rapidamente. Você não deve tentar usá-lo dentro de uma função personalizada que você escreveu-se.
A saída do resumo() página mostra para cada variável de um conjunto de estatísticas descritivas, dependendo do tipo da variável:
As variáveis numéricas: resumo() dá-lhe a faixa, quartis, a mediana ea média.
Variáveis fator: resumo() dá-lhe uma tabela com frequências.
Numéricos e fator de variáveis: resumo() dá-lhe o número de valores perdidos, se houver algum.
variáveis de caracteres: resumo() não lhe dá qualquer tipo de informação para além do comprimento e da classe (que é 'personagem').
Como corrigir um problema
Você viu os valores estranhos para a variável cil? Um rápido olhar para o resumo pode dizer-lhe que há algo suspeito acontecendo, como, por exemplo, o mínimo eo primeiro quartil têm exatamente o mesmo valor. Na verdade, a variável cil tem apenas três valores e seria melhor como um fator. Então, vamos colocar essa variável fora de sua miséria:
> Cars $ cil lt; - as.factor (carros $ CYL)