Como usar a função merge () com conjuntos de dados em R

Em R utiliza o merge ()

função para combinar tramas de dados. Esta poderosa função tenta identificar colunas ou linhas que são comuns entre os dois quadros de dados diferentes.

Como usar a mala para encontrar o cruzamento dos dados

A forma mais simples de merge () encontra a intersecção entre dois conjuntos diferentes de dados. Em outras palavras, para criar um quadro de dados que consiste naqueles estados que são frios, bem como grande, use a versão padrão do merge ():

> Merge (cold.states, large.states) Nome Geada Area1 Alaska 152 5664322 Colorado 166 1037663 Montana 155 1455874 Nevada 188 109889

Se você estiver familiarizado com uma linguagem de banco de dados como SQL, você pode ter adivinhado que merge () é muito semelhante a uma base de dados de entrar. Esta é, de fato, o caso e os diferentes argumentos para merge () permitem realizar junções naturais, bem como para a esquerda, direita e externa completa junta.

o merge () função recebe um número bastante grande de argumentos. Estes argumentos podem parecer bastante intimidante até você perceber que eles formam um número menor de argumentos relacionados:

  • x: Um quadro de dados.

  • y: Um quadro de dados.

  • de, by.x, by.y: Os nomes das colunas que são comuns a ambos x e y. O padrão é usar as colunas com nomes comuns entre os dois quadros de dados.

  • tudo, all.x, all.y: valores lógicos que especificam o tipo de impressão em série. O valor padrão é all = FALSE (O que significa que apenas as linhas correspondentes são retornados).

Esse último grupo de argumentos - todos, all.x e aliado - merece alguma explicação. Estes argumentos determinar o tipo de impressão em série que vai acontecer.

Como entender os diferentes tipos de mesclagem

o merge () função permite quatro formas de combinar os dados:

  • Natural juntar-se: Para manter apenas linhas que correspondam a partir dos quadros de dados, especificar o argumento all = FALSE.

  • junção externa completa: Para manter todas as linhas de ambos os quadros de dados, especifique tudo = TRUE.

  • Junção externa esquerda: Para incluir todas as linhas do seu quadro de dados x e apenas aqueles a partir de y que correspondem, especifique all.x = TRUE.

  • Direito junção externa: Para incluir todas as linhas do seu quadro de dados y e apenas aqueles a partir de x que correspondem, especifique all.y = TRUE.

    image0.jpg

Como encontrar a união (junção externa completa)

Voltando aos exemplos de estados dos EUA, executar uma mala completa de estados frio e grandes, o uso fundir e especificar tudo = TRUE:

> Merge (cold.states, large.states, todos = TRUE) Nome Geada Area1 Alaska 152 5664322Arizona NA 1.134.173 California NA 156.361 .... 13 Texas NA 26213414Vermont 168 NA15Wyoming 173 NA

Ambos os quadros de dados tem uma variável Nome, então R coincide com os casos com base nos nomes dos estados. a variável geada vem da trama de dados cold.states, e a variável Área vem da trama de dados large.states.

Note que este executa a fusão completa e preenche as colunas com N / D valores onde não há dados correspondentes.

menu