Quanto spread é Não nos dados?
Quando se trabalha com estatísticas de dados grandes, você identifica a propagação de um conjunto de dados do centro, com várias medidas diferentes de resumo: variância, desvio padrão, quartis, intervalo interquartílico (II).
Variação é o desvio médio quadrático entre os elementos do conjunto de dados e a média. Para uma amostra de dados, a variação é calculada assim:

Onde
xEu é o valor de um único elemento na amostra.
é a média da amostra.
n é o tamanho da amostra.
O desvio padrão é a raiz quadrada da variância. Para a maioria das aplicações, o desvio padrão é mais conveniente de usar do que a variância como medida da propagação. Isso porque variância é medido em quadrado unidades, enquanto que o desvio padrão é medida nas mesmas unidades como os dados. Por exemplo, a variância de um conjunto de dados consistindo de preços seria medido em dólares quadrado, eo desvio padrão seria medido em dólares. O desvio padrão é a medida mais amplamente utilizado da propagação em um conjunto de dados.
Quartis dividir um conjunto de dados em quatro partes iguais. O primeiro quartil (Q1) Divide os dados em o menor de 25 por cento das observações e a maior de 75 por cento (25 por cento das observações são menos que Q1, e 75 por cento são Melhor que Q1). O segundo quartil (Q2) Divide os dados para o menor de 50 por cento das observações e a maior de 50 por cento. O terceiro quartil (Q3) Divide os dados para o menor de 75 por cento das observações e a maior de 25 por cento. O intervalo interquartil (IQR) é igual à diferença entre o terceiro eo primeiro quartil:

O IQR representa a média 50 por cento dos dados.
Os quartis de um conjunto de dados são melhor ilustrado com um gráfico de caixa. A figura a seguir mostra um gráfico de caixa dos retornos diários para ExxonMobil em 2013.

O gráfico de caixa mostra várias estatísticas-chave para os retornos da ExxonMobil:

O rendimento mínimo é mostrada em um gráfico como um ponto único na parte inferior da parcela (uma caixa de espectáculos de enredo discrepantes como pontos individuais). Q1 como é mostrado na parte inferior da caixa, Q2 é a linha preta sólida no meio da caixa, e Q3 representa a parte superior da caixa. O retorno máximo é mostrado como um único ponto no topo da trama.