Como Aplicar para criar tabulares Resumos em R

Você usa tapply ()

para criar resumos tabulares de dados em R. Com tapply (), você pode facilmente criar resumos dos subgrupos de dados. Esta função tem três argumentos:

  • x: Um vetor

  • ÍNDICE: Um fator ou lista de fatores

  • DIVERSÃO: Uma função

Por exemplo, calcular o comprimento sepal média no conjunto de dados íris:

> Tapply (iris $ Sepal.Length, íris $ Espécies, média) setosa versicolor virginica5.006 5,936 6,588

Com esta pequena linha de código, você faz alguma coisa poderosa. Você diz a R para assumir a Sepal.Length coluna, dividi-lo de acordo com a Espécies, e, em seguida, calcular a média para cada grupo.

Esta é uma expressão importante para escrever código em R, e geralmente atende pelo nome de Split, em Aplicar e Combine (SAC). Neste caso, você dividir um vetor em grupos, aplicar uma função a cada grupo e, em seguida, combinar o resultado em um vetor.

É claro, utilizando o com() função, você pode escrever sua linha de código de uma forma ligeiramente mais legível:

> Com (íris, tapply (Sepal.Length, Espécies, a média)) setosa versicolor virginica5.006 5,936 6,588

utilização tapply (), você também pode criar tabelas mais complexas para resumir seus dados. Você pode fazer isso usando uma lista como o seu ÍNDICE argumento.

Como usar tapply () para criar tabelas de dimensão superior

Por exemplo, tentar resumir a trama de dados mtcars, um quadro de dados embutido com dados sobre os motores do automóvel e desempenho. Como acontece com qualquer objeto, você pode usar str () para inspecionar sua estrutura:

> str (mtcars)

a variável sou é um vector numérico que indica se o motor tem um automático (0) Ou manual (1) Caixa de velocidades. Porque este não é muito descritivo, comece criando um novo objeto, carros, que é uma cópia de mtcars, e alterar a coluna sou ser um factor de:

> carros lt; - dentro (mtcars, + am lt; - fator (am, os níveis = 0: 1, etiquetas = c ( "Automatic", "Manual")) +)

Agora usa tapply () para encontrar as milhas médias por galão (mpg) Para cada tipo de caixa de velocidades:

> Com (carros, tapply (mpg, estou, quero dizer)) Manual17.14737 24,39231 automática

Sim, você está correto. Este ainda é apenas uma tabela unidimensional. Agora, tente fazer uma tabela bidimensional com o tipo de caixa de velocidades (sou) e número de engrenagens (engrenagem):

> Com (carros, tapply (mpg, lista (engrenagem, AM), média)) Automatic Manual3 16,10667 Na4 21,05 mil 26.2755NA 21,380

Você usa tapply () para criar resumos tabulares de dados. Este é um pouco semelhante ao mesa() função. Contudo, mesa() pode criar apenas as tabelas de contingência (isto é, tabelas de contagens), enquanto que com tapply () você pode especificar qualquer função como a função de agregação. Em outras palavras, com tapply (), você pode calcular a contagem, meios, ou qualquer outro valor.

Se você deseja resumir as estatísticas em um único vetor, tapply () é muito útil e rápido de usar.

Como usar agregado ()

Outra função R que faz algo muito semelhante é agregar():

> Com (carros, agregada (mpg, lista (marcha = engrenagem, am = AM), quer dizer)) gearamx1 3 Automatic 16,106672 4 Automatic 21,050003 4 Manual de 26,275004 5 manual de 21,38 mil

Em seguida, você toma agregar() a novas alturas usando a interface fórmula.

menu