Como usar read.csv () para importar dados no R

Uma das maneiras mais fáceis e mais confiáveis ​​de obtenção de dados em R é usar arquivos de texto, em particular CSV arquivos (valores separados por vírgula). O formato de arquivo CSV usa vírgulas para separar os diferentes elementos em uma linha, e cada linha de dados está em sua própria linha no arquivo de texto, o que torna CSV arquivos ideal para representar dados tabulares.

O benefício adicional de arquivos CSV é que quase todas as aplicações de dados suporta exportação de dados para o formato CSV. Este é certamente o caso para a maioria dos aplicativos de planilha, incluindo Microsoft Excel e OpenOffice Calc.

Nos exemplos a seguir, suponha que você tenha um arquivo CSV armazenado em uma pasta conveniente no seu sistema de arquivos. Para converter uma planilha do Excel para o formato CSV, você precisa escolher File-Save As, o que lhe dá a opção para salvar o arquivo em uma variedade de formatos.

Tenha em mente que um arquivo CSV pode representar apenas uma única folha de cálculo de uma planilha. Finalmente, não se esqueça de usar a linha superior da planilha (linha 1) para os títulos de coluna.

Em R, utiliza o read.csv () função para importar dados no formato CSV. Esta função tem um número de argumentos, mas o único argumento essencial é Arquivo, que especifica a localização eo nome do arquivo. Para ler um arquivo chamado elements.csv localizado em f: usar read.csv () com caminho de arquivo:

> elementos lt; - read.csv (file.path ( "F:", "elements.csv"))> str (elementos) 'data.frame': 10 obs. de 9 variáveis: $ Atomic.number: int 1 2 3 4 5 6 7 8 9 10 $ Nome: Fator w / 10 níveis "berílio", "Boro", ..: 6 5 7 1 2 3 9 10 4 8 $ símbolo: Fator w / 10 níveis "B", "ser", "C", "F", ..: 5 6 7 2 1 3 8 10 4 9 $ Grupo: int 1 18 1 2 13 14 15 16 17 18 $ Período: int 1 1 2 2 2 2 2 2 2 2 $ Block: Fator w / 2 níveis de "p", "s": 2 2 2 2 1 1 1 1 1 1 $ State.at.STP: Fator w / 2 níveis "Gás", "Solid": 1 1 2 2 2 2 1 1 1 1 $ Ocorrência: Fator w / nível 1 "Primordial": 1 1 1 1 1 1 1 1 1 1 $ Descrição: Fator w / 6 níveis "Metal alcalino", ..: 5 6 1 2 4 6 6 6 3 5

R importa os dados para um quadro de dados. Como você pode ver, esse exemplo tem dez observações de nove variáveis.

Observe que a opção padrão é converter cadeias de caracteres em fatores. Assim, as colunas Nome, Quadra, State.At.STP, Ocorrência, e Descrição todos foram convertidos em factores. Também, notar que R converte espaços nos nomes de coluna de períodos (por exemplo, na coluna State.At.STP).

Esta opção padrão de conversão de strings para fatores quando você usa read.table () pode ser uma fonte de grande confusão. Você é muitas vezes melhor importação de dados que contém seqüências de tal forma que as cordas não são fatores convertidos, mas continuam a ser os vectores de caracteres. Para importar dados que contém seqüências de caracteres, use o argumento stringsAsFactors = FALSE para read.csv () ou read.table ():

> elementos lt; - read.csv (file.path ( "f:", "elements.csv"), stringsAsFactors = false)> str (elementos) 'data.frame': 10 obs. de 9 variáveis: $ Atomic.number: int 1 2 3 4 5 6 7 8 9 10 $ Nome: chr "Hydrogen" "Hélio" "Lithium" "berílio" ... $ Símbolo: chr "H" "Ele" " Li "" Seja "... $ Grupo: int 1 18 1 2 13 14 15 16 17 18 $ Período: int 1 1 2 2 2 2 2 2 2 2 $ Block: chr" s "" s "" s "" s "... $ State.at.STP: chr" Gás "" Gas "" Solid "" Solid "... $ Ocorrência: chr" Primordial "" Primordial "" Primordial "" Primordial "... $ Descrição: chr "não-metálicos" "gás nobre" "metal alcalino" "metal alcalino-terroso" ...

Se você tem um arquivo no formato da UE (União Europeia) (onde vírgulas são usadas como separadores decimais e vírgulas são usadas como separadores de campo), você precisa importá-lo para R usando o read.csv2 () função.

menu