Gráfica Análise Exploratória de Dados (EDA) Techniques

EDA é fortemente baseada em técnicas gráficas. Você pode usar técnicas gráficas para identificar as propriedades mais importantes de um conjunto de dados. Aqui estão algumas das técnicas gráficas mais amplamente utilizados:

  • Os diagramas de caixa

  • histogramas

  • gráficos de probabilidade normais

  • gráficos de dispersão

Os diagramas de caixa

Você usa diagramas de caixa para mostrar algumas das características mais importantes de um conjunto de dados, tais como o seguinte:

  • valor mínimo

  • Valor máximo

  • quartis

Quartis separar um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) É um valor tal que o seguinte é verdadeiro:

25 por cento das observações em um conjunto de dados são menos do que o primeiro quartil.
75 por cento das observações são maiores do que o primeiro quartil.

O segundo quartil (Q2) É um valor tal que

50 por cento das observações em um conjunto de dados são menos do que o segundo quartil.
50 por cento das observações são maiores do que o segundo quartil.

O segundo quartil também é conhecido como o mediana.

O terceiro quartil (Q3) É um valor tal que

75 por cento das observações em um conjunto de dados são menos do que o terceiro quartil.
25 por cento das observações são maiores do que o terceiro quartil.

Você também pode usar gráficos de caixas para identificar discrepantes. Estes são valores que são substancialmente diferentes das do resto do conjunto de dados. Outliers pode causar problemas para os testes estatísticos tradicionais, por isso é importante identificá-las antes de realizar qualquer tipo de análise estatística.

histogramas

Você usa histogramas para obter insights sobre a distribuição de probabilidade de que um conjunto de dados segue. Com um histograma, o conjunto de dados é organizado em uma série de valores individuais ou intervalos de valores, cada um representado por uma barra vertical. A altura da barra mostra a frequência com que um valor ou intervalo de valores ocorre. Com um histograma, é fácil ver como os dados são distribuídos.

gráficos de dispersão

Um gráfico de dispersão é uma série de pontos que mostram como duas variáveis ​​estão relacionados uns com os outros. Uma dispersão aleatória de pontos indica que as duas variáveis ​​são independentes, ou que a relação entre eles é muito fraco. Se os pontos se assemelham de uma linha recta, isto indica que a relação entre as duas variáveis ​​é aproximadamente linear.

Duas variáveis ​​estão linearmente relacionadas se eles podem ser descritos com a equação Y = mX + b.

x é a variável independente, e Y é a variável dependente. m é o declive, que representa a variação Y devido a uma dada alteração na x. b é o interceptar, que mostra o valor de Y quando x igual a zero.

A figura mostra um gráfico de dispersão entre duas variáveis ​​em que a relação parece ser linear.

gráfico de dispersão de uma relação linear.
gráfico de dispersão de uma relação linear.

Os pontos no gráfico de dispersão quase formar uma linha reta. Dobra-se um pouco para a esquerda e se inclina um pouco para a direita, mas é mais ou menos em linha reta. Isto mostra que a relação é linear, com uma inclinação positiva.

A figura a seguir mostra um gráfico de dispersão entre duas variáveis ​​em que Y parece estar a aumentar mais rapidamente do que X.

gráfico de dispersão de uma relação não-linear.
gráfico de dispersão de uma relação não-linear.

Veja a curva? Esta relação não linear é claramente. É, de facto, uma relação quadrática. A relação quadrática toma a forma Y = machado2 + bX + c.

A figura a seguir mostra um gráfico de dispersão no qual não parece haver qualquer relação entre x e Y.

Gráfico de dispersão sem relação entre as variáveis ​​& lt; i>XLT; / i> e lt; i> Y.lt; / i>
gráfico de dispersão com nenhuma relação entre as variáveis x e Y.

As variáveis ​​no gráfico de dispersão são apresentados não relacionado ou independente- você pode ver isso pela falta de qualquer padrão nos dados.

Além de mostrar a relação entre as duas variáveis, um gráfico de dispersão, também pode mostrar a presença de outliers. A figura a seguir mostra um conjunto de dados com uma observação que é substancialmente diferente das outras observações.

gráfico de dispersão com um outlier.
gráfico de dispersão com um outlier.

O ponto de outlier precisa ser investigada para determinar se é o resultado de um erro ou outros problemas. É possível que o outlier terá de ser removido a partir dos dados.

gráficos de probabilidade normais

gráficos de probabilidade normais são usados ​​para ver quão de perto os elementos de um conjunto de dados seguem a distribuição normal. A suposição de normalidade é comum em muitas disciplinas. Por exemplo, é frequentemente assumido em finanças e economia que os retornos aos stocks são normalmente distribuídos. A suposição de normalidade é muito conveniente, e muitos testes estatísticos são baseados nesta hipótese.

Aplicação de testes estatísticos que assumem a normalidade a um não-normal dataset daria resultados extremamente questionáveis. Portanto, é importante para determinar se ou não os dados são normalmente distribuídos antes de realizar qualquer um desses testes estatísticos.

menu