O que um Boxplot pode dizer sobre uma estatística conjunto de dados

Um boxplot pode dar-lhe informações sobre a forma, a variabilidade, e do centro da (ou mediana) de um conjunto de dados estatísticos. É particularmente útil para a exibição de dados inclinados.

Qual a forma boxplot revela sobre um conjunto de dados estatísticos

Um boxplot pode mostrar se um conjunto de dados é simétrica (aproximadamente a mesma em cada lado, quando cortada ao meio) ou inclinada (torta). Um conjunto de dados simétrica mostra a média mais ou menos no meio da caixa.

A mediana, parte do resumo de cinco números, é mostrado pela linha que corta a caixa na boxplot.

dados inclinados mostram um boxplot desequilibrado, onde a mediana corta a caixa em duas partes desiguais. Se a parte mais longa da caixa é para a direita (ou acima) da mediana, os dados estão a ser dito direito enviesada. Se a peça não está mais à esquerda (ou inferior) a mediana, os dados são enviesada esquerda.

Boxplot de Melhores idades Atriz (1928-2009 - & lt; i>NLT;. / i> = 83 atrizes)
Boxplot de Melhores idades Atriz (1928-2009- n = 83 atrizes).

Na figura acima, as idades são bem inclinado. A parte da caixa para a esquerda da mediana (representando as actrizes mais jovens) é mais curto do que a parte do lado direito da mediana (representando as actrizes mais velhas). Isso significa que as idades das atrizes mais jovens são mais próximos do que as idades das atrizes mais velhas.

Estatística Descritiva para Melhores idades Atriz (1928-2009).
Estatística Descritiva para Melhores idades Atriz (1928-2009).

Esta figura mostra a estatística descritiva dos dados e confirma a assimetria direita: a média de idade (33 anos) é inferior à média de idade (35,69 anos).

Se de um lado da caixa é mais longa do que a outra, isso não significa que o lado contém mais dados. Na verdade, você não pode dizer o tamanho da amostra, olhando para um boxplot- é baseado em porcentagens do tamanho da amostra, não é o tamanho da amostra em si. Cada secção do boxplot (o mínimo de Q1, Q1 a mediana, a mediana Q3, e Q3 ao máximo) contém 25% dos dados, não importa o quê. Se uma das secções é mais longa do que a outra, que indica uma gama mais vasta de valores de dados, em que a secção (ou seja, os dados são mais espalhadas). Uma seção menor do boxplot indica os dados são mais condensada (aproximar).

Apesar de um boxplot pode dizer se um conjunto de dados é simétrica (quando a mediana está no centro da caixa), não se pode dizer que a forma da simetria da maneira uma lata histograma.

Histogramas de dois conjuntos de dados simétricas
Histogramas de dois conjuntos de dados simétricas

Por exemplo, a figura mostra histogramas acima a partir de dois conjuntos de dados diferentes, cada uma contendo 18 valores que variam de 1 a 6. O histograma da esquerda tem um número igual de valores em cada grupo, e a da direita tem dois picos em 2 e 5. os dois histogramas mostram os dados são simétricas, mas as suas formas são claramente diferentes.

Boxplots dos dois conjuntos de dados simétricos da figura acima
Boxplots dos dois conjuntos de dados simétricos da figura acima

Esta figura mostra as boxplots correspondentes para perceber esses mesmos dois dados conjuntos- eles são exatamente o mesmo. Isso ocorre porque os conjuntos de dados ambos têm os mesmos resumos de cinco números - eles são ambos simétrica com a mesma quantidade de distância entre Q1, a mediana, e Q3. No entanto, se você acabou de ver as boxplots e não os histogramas, você pode pensar que as formas dos dois conjuntos de dados são os mesmos, quando na verdade eles não são.

Apesar de sua fraqueza na detecção do tipo de simetria (você pode adicionar em um histograma para suas análises para ajudar a preencher essa lacuna), um boxplot tem uma grande cabeça em que você possa identificar medidas reais de propagação e do centro diretamente do boxplot, onde em um histograma que você não pode. Um boxplot também é bom para comparar os conjuntos de dados, mostrando-lhes no mesmo gráfico, lado a lado.

O que um boxplot revela sobre a variabilidade de um conjunto de dados estatísticos

A variabilidade em um conjunto de dados que é descrito pela síntese de cinco número é medido por o intervalo interquartil (IQR). o IQR é igual a Q3 - Q1, a diferença entre o percentil 75 e o percentil 25 (a distância que cobre o meio de 50% dos dados). Quanto maior for o IQR, o mais variável do conjunto de dados é.

A partir da figura acima mostra as estatísticas descritivas para Melhores idades Actriz, a variabilidade na idade dos Melhores vencedores Actriz, medida pelo IQR, é Q3 - Q1 = 39 - 28 = 11 anos. Do grupo de atrizes cujas idades eram mais próximo à mediana, metade delas estavam dentro de 11 anos um do outro quando eles ganharam seus prêmios.

Note-se que o IQR ignora os dados abaixo do percentil 25 ou acima do 75, que pode conter valores extremos que podem inflar a medida de variabilidade de todo o conjunto de dados. Então, se os dados estão distorcidos, o IQR é uma medida mais apropriada da variabilidade do que o desvio padrão.

menu