Compreender dados em Long e formatos largos em R

Ao falar sobre a reformulação de dados no R, é importante reconhecer os dados em formatos longas e largas. Essas metáforas visuais descrevem duas formas de representar a mesma informação. É útil saber esses formatos ao usar R.

Pode reconhecer dados em formato de largura por o facto de que as colunas representam geralmente grupos. Então, o nosso exemplo de jogos de basquete está em grande formato, porque há uma coluna para as cestas feitas por cada um dos participantes:

 Jogo Local Granny Geraldine Gertrude1 primeiro Bruges 12 5112 2ª Ghent 4 453 3ª Ghent 5 264 4th Bruges 6 47

Em contrapartida, ter um olhar para o formato longo de exatamente os mesmos dados:

 Jogo Local value1 variável primeiro Bruges Granny 122 segundo Ghent Granny 43 3ª Ghent Granny 54 4th Bruges Granny 65 1º Bruges Geraldine 56 segundo Ghent Geraldine 47 3ª Ghent Geraldine 28 4 Bruges Geraldine 49 1º Bruges Gertrude 1110 segundo Ghent Gertrude 511 3ª Ghent Gertrude 612 4 Bruges Gertrude 7

Observe como, no formato longo, as três colunas para Granny, Geraldine, e Gertrude desapareceram. Em seu lugar, agora você tem uma coluna chamada valor que contém a pontuação real, e uma coluna chamada variável que liga o marcador para qualquer uma das três senhoras.

Ao converter dados entre formatos de longas e largas, é importante ser capaz de distinguir variáveis ​​identificadoras de variáveis ​​medidas:

  • variáveis ​​Identificador: Identificador ou ID, variáveis ​​identificar as observações. Pense nisso como a chave que identifica as suas observações. (No projeto de banco de dados, estes são chamados de chaves primárias ou secundárias).

  • variáveis ​​medidas: Isto representa as medições observadas.

No nosso exemplo, as variáveis ​​são identificador Jogo e Local, enquanto que as grandezas de medição são os objectivos (isto é, as colunas Avó, Geraldine, e Gertrude).

menu