Como histogramas podem Deturpar Dados Estatísticos
Não há regras rígidas e rápidas sobre como criar um histograma com base em um conjunto de de dados estatísticos a pessoa que faz o gráfico começa a escolher os agrupamentos no x-eixo, bem como a escala e pontos inicial e final na y-eixo. Só porque há um elemento de escolha, no entanto, não significa que cada escolha é appropriate- na verdade, um histograma pode ser feito para ser enganosa de muitas maneiras.
Embora o número de grupos que você usa para um histograma é a critério da pessoa que faz o gráfico, não existe tal coisa como ir ao mar, quer por terem demasiado alguns bares, com tudo agrupados, ou por ter a forma como muitos bares, onde cada pequena diferença é ampliada.
Para decidir quantas barras de um histograma deve ter, você deve dar uma boa olhada nos agrupamentos utilizados para formar as barras no x-eixo e ver se elas fazem sentido. Por exemplo, não faz sentido falar de notas dos exames em grupos de 2 pontos- isso é muito detalhe - também muitos bares. Por outro lado, não faz sentido para as idades de grupo das pessoas por intervalos de 20 anos- que não é suficientemente descritivo.
Os números acima e abaixo ilustrar este ponto.
Cada histograma resume n = 222 observações da quantidade de tempo entre erupções do gêiser Old Faithful em Yellowstone Park. Histograma # 1 usa seis bares que agrupar os dados por intervalos de 10 minutos. Este histograma mostra um padrão deixou enviesada geral, mas com 222 observações que você está enchendo uma enorme quantidade de dados em apenas seis grupos- por exemplo, a barra de 75-85 minutos tem mais de 90 peças de dados na mesma. (Isso é mais de 40% do conjunto de dados!) Você pode dividi-la ainda mais do que isso.
Histograma # 2 mostra o mesmo conjunto de dados, em que o tempo entre as erupções é dividida em grupos de 3 minutos cada, resultando em 19 bares. Observe o padrão distinto nos dados que aparece com este histograma que não foi descoberto em histograma # 1. Você vê dois picos distintos nos dados: um pico em torno da marca de 50 minutos, e uma em torno da marca de 75 minutos. Um conjunto com dois picos de dados é chamada bimodal- histograma # 2 mostra um exemplo claro.
Olhando para histograma # 2, você pode concluir que o gêiser tem duas categorias de erupções: um grupo que tem um tempo de espera mais curto, e outro grupo que tem um tempo de espera mais longo. Dentro de cada grupo para ver os dados são bastante perto de onde o pico está localizado. Olhando para histograma # 1, você não pode dizer isso.
o y-eixo de um histograma mostra como muitas observações estão em cada grupo, utilizando contagens ou percentagens. Um histograma pode ser enganosa se ele tem uma escala enganosa e / ou inadequada pontos inicial e final na y-eixo.
Assista a escala no y-eixo de um histograma. Se ele vai por grandes incrementos e tem um ponto final que é muito maior do que o necessário, você verá uma grande quantidade de espaço em branco acima do histograma. As alturas das barras são espremidas para baixo, fazendo suas diferenças olhar mais uniforme do que deveriam. Se a escala vai em pequenos incrementos e termina no menor valor possível, as barras tornam-se esticado verticalmente, exagerando as diferenças em suas alturas e sugerindo uma diferença maior do que realmente existe.
O exemplo a seguir utiliza uma escala diferente na vertical (y) Eixo de histograma # 2.
Histograma # 3 leva os dados de Old Faithful (tempo entre erupções) e usa incrementos verticais de 20 minutos, de 0 a 100. Compare isso com histograma # 2, que usa incrementos verticais de 5 minutos, de 0 a 35. Histograma # 3 tem um monte de espaço em branco e dá a aparência de que os tempos estão mais uniformemente distribuída entre os grupos do que realmente são. Ele também faz com que o conjunto de dados parecer menor, se você não prestar atenção ao que está no y-eixo. Dos dois gráficos, histograma # 2 é mais apropriado.