Como controlar correlações de dados em R

Os estatísticos adoro quando eles podem vincular uma variável de dados para outro. R pode ajudar a encontrar essa relação. Luz solar, por exemplo, é prejudicial para saias: Quanto mais tempo o sol brilha, as saias mais curtas tornam-se. Assim, o número de horas de sol se correlaciona com comprimento da saia.

Obviamente, não há realmente uma relação causal direta aqui - você não vai encontrar saias curtas durante o verão nas regiões polares. Mas, em muitos casos, a busca de relações causais começa com olhando para correlações.

Para ilustrar isso, dê uma olhada no famoso íris conjunto de dados em R. Um dos maiores estatísticos de todos os tempos, Sir Ronald Fisher, utilizado este conjunto de dados para ilustrar como as medições múltiplas pode ser usado para discriminar entre diferentes espécies. Esse conjunto de dados contém cinco variáveis, como você pode ver, usando o nomes () função:

> Nomes (íris) [1] "Sepal.Length" "Sepal.Width" "Petal.Length" [4] "Petal.Width" "Espécies"

Ele contém medições de características de flores para três espécies de íris e de 50 flores para cada espécie. Duas variáveis ​​descrevem as sépalas (Sepal.Length e Sepal.Width), Duas outras variáveis ​​descrever as pétalas (Petal.Length e Petal.Width), E a última variável (Espécies) É um fator que indica a partir do qual as espécies da flor vem.

Embora as aparências podem enganar, você quer globo ocular seus dados antes de cavar mais fundo nele. Para traçar uma grade de gráficos de dispersão para todas as combinações de duas variáveis ​​em seu conjunto de dados, você pode simplesmente usar o enredo() funcionar no seu quadro de dados, como este:

> Plot (íris [-5])

Porque scatterplots são úteis somente para as variáveis ​​contínuas, você pode soltar todas as variáveis ​​que não são contínuas. Muitas variáveis ​​na matriz trama faz com que as parcelas difícil de ver. No código anterior, você deixa cair a variável Espécies, porque isso é um fator.

Você pode ver o resultado dessa simples linha de código. Os nomes de variáveis ​​aparecem nos quadrados na diagonal, indicando quais as variáveis ​​são plotados ao longo do x-e o eixo y-eixo. Por exemplo, a segunda trama na terceira linha possui Sepal.Width no x-e eixo Petal.Length no y-eixo.

image0.png

menu