Como colocar valores limítrofes estatísticos em um histograma
Quando você cria um histograma, você precisa dividir o conjunto de dados em grupos separados. No entanto, alguns dados estatísticos pode ser bem no limite entre dois grupos. O que você faz nessas situações?
Dê uma olhada na tabela a seguir mostra Melhores vencedores Atriz Oscar Award entre 1928 e 1935:
Ano | Vencedora | Idade | Filme |
---|---|---|---|
1928 | Laura Gainor | 22 | Nascer do sol |
1929 | Mary Pickford | 37 | coquete |
1930 | Norma Shearer | 30 | o divorciado |
1931 | Marie Dressler | 62 | Min e Bill |
1932 | Helen Hayes | 32 | O Pecado de Madelon Claudet |
1933 | Katharine Hepburn | 26 | Glória da manhã |
1934 | Collette Colbert | 31 | It Happened One Night |
1935 | Bette Davis | 27 | Perigoso |
Você notou que a idade de uma atriz situa-se em uma fronteira? Norma Shearer tinha 30 anos em 1930, quando ela ganhou o Oscar de A Divorciada. Agora, digamos que você dividir os grupos etários no histograma em segmentos de 5 anos (20-25, 25-30, 30-35, e assim por diante). Você colocá-la no grupo de 25-30 anos (a barra inferior) ou a faixa etária 30-35 (barra superior)?
Contanto que você é consistente com todos os pontos de dados, você pode colocar todos os pontos de fronteira em suas respectivas barras inferiores ou colocar todos eles em suas respectivas barras superiores. O importante é escolher uma direção e ser consistente.
O histograma neste exemplo foi com a convenção de colocar todos os valores limítrofes em suas respectivas barras superiores - o que coloca a idade de Norma Shearer no terceiro bar, o grupo de 30-35 anos de idade do histograma. É uma prática comum fazer os intervalos da barra deixou inclusiva (Isto é, as barras incluem o ponto de extremidade esquerda, mas não da direita), tal como este exemplo faz histograma. Assim, este bar contém a idade de 30, mas não 35.