Como remover linhas com dados ausentes em R
Outra aplicação útil de subsetting quadros de dados é encontrar e remover linhas com dados ausentes. A função de R para verificar se este é complete.cases (). Você pode tentar isso no conjunto de dados built-in qualidade do ar, um quadro de dados com uma quantidade razoável de dados em falta:
> Str (airquality)> complete.cases (airquality)
Os resultados de complete.cases () é um vector com o valor lógico VERDADE para linhas que estão completos e FALSO para as linhas que têm algum N / D valores. Para remover as linhas com dados em falta a partir qualidade do ar, tente o seguinte:
> x lt; - airquality [complete.cases (airquality),]> str (x)
Seu resultado deve ser um quadro de dados com 111 linhas, em vez das 153 linhas do original qualidade do ar quadro de dados.
Como sempre com R, não é mais do que uma forma de alcançar seu objetivo. Neste caso, você pode fazer uso de na.omit () omitir todas as linhas que contêm NA valores:
> x lt; - na.omit (airquality)
Quando tiver certeza de que seus dados é limpo, você pode começar a analisá-lo através da adição de campos calculados.
Se você usar qualquer um desses métodos para o subconjunto de seus dados ou limpar os valores em falta, não se esqueça de armazenar o resultado em um novo objeto. R não alterar nada no quadro de dados original, a menos que você substituí-lo explicitamente. Isso é uma coisa boa, porque você não pode acidentalmente estragar seus dados.