Como usar dados no formato alto em parcelas de rede em R

Quando você tem dados em formato alto em R, você pode facilmente usar gelosia gráficos para visualizar subgrupos em seus dados. Por exemplo, o que acontece quando você quer analisar mais de uma variável ao mesmo tempo?

Considere o conjunto de dados built-in longley, que contém dados sobre emprego, desemprego e outros indicadores populacionais:

> Str (longley) 'data.frame': 16 obs. de 7 variáveis: $ GNP.deflator: num 83 88,5 88,2 89,5 96,2 ... $ PNB: num 234 259 258 285 329 ... $ Desempregados: NUM 236 232 368 335 210 ... $ Armed.Forces: NUM 159 146 162 165 310 ... $ População: num 108 109 110 111 112 ... $ Ano: int 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 ... $ Employed: num 60,3 61,1 60,2 61,2 63,2 ...

Uma maneira de analisar facilmente as diferentes variáveis ​​de uma trama de dados é a primeira a remodelar a estrutura de dados de grande formato para o formato de altura.

Um quadro de dados ampla contém uma coluna para cada variável. Um quadro de dados de altura contenha a mesma informação, mas os dados são organizados de tal forma que uma coluna é reservada para identificar o nome da variável e uma segunda coluna contém os dados reais.

Uma maneira fácil de remodelar um quadro de dados de grande formato para o formato de altura é usar o fundição() na função reshape2 pacote. Lembrar: reshape2 não faz parte da base R - é um pacote de add-on que está disponível no CRAN. Você pode instalá-lo com o install.packages ( "reshape2") função.

> Biblioteca ( "reshape2")> mlongley lt; - derreter (longley, id.vars = "Year")> str (mlongley) 'data.frame': 96 obs. de 3 variáveis: $ Ano: int 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 ... $ variáveis: Fator w / 6 níveis "GNP.deflator", ..: 1 1 1 1 1 1 1 1 1 1 .. . $ value: num 83 88,5 88,2 89,5 96,2 ...

Agora você pode traçar o quadro de dados de altura mlongley e usar as novas colunas valor e variável na fórmula ~ valor Ano | variável.

> xyplot (valor ~ Ano | variáveis, dados = mlongley, + layout = c (6, 1), + par.strip.text = list (CEX = 0,7), + escalas = list (CEX = 0,7) +)

Os argumentos adicionais par.strip.text e balança controlar o tamanho da fonte (razão de expansão de caracteres) da tira na parte superior do gráfico, bem como a escala.

Quando você cria lotes com vários grupos, certifique-se de que o gráfico resultante é significativa. Por exemplo, a unidade do PIB (abreviação de Produto interno bruto) É, provavelmente, milhares de milhões de dólares. Em contraste, a unidade da população é, provavelmente, milhões de pessoas. (A documentação do longley conjunto de dados não é clara sobre este tema.)

Tenha muito cuidado quando você apresenta terrenos como este - você não quer ser acusado de criar gráfico de lixo (Enganosa gráficos).

image0.jpg

menu