Encontre os Outliers em seus dados Infographics
Na análise de dados para seus infográficos, você deve estar ciente de que alguns pontos de dados - conhecido como discrepantes - estava tão fora da norma, para chamar a atenção para si. Nos casos mais graves, podem mesmo distorcer dados e criar uma imagem enganosa do assunto. É preciso reconhecer quando você tem um outlier e então decidir o que fazer sobre isso.
Esta tabela contém um exemplo simples para demonstrar esta ideia. Os dois conjuntos de dados representam as notas do aluno, durante oito semanas, em dois exams- semanalmente os números são a porcentagem correta no exame. O conjunto de dados da esquerda (o primeiro exame) não contém um outlier, mas o conjunto de dados sobre a direita (o segundo exame) faz. A um outlier é mostrada em negrito.
Semana | Graus (sem outlier) | Graus (um outlier) |
---|---|---|
1 | 90% | 90% |
2 | 88% | 88% |
3 | 90% | 90% |
4 | 85% | 50% |
5 | 86% | 86% |
6 | 87% | 87% |
7 | 85% | 85% |
8 | 84% | 84% |
Média | 87% | 83% |
A média na coluna do meio pinta muito uma imagem precisa da realização do aluno no teste regular. O outlier (negrito) único (50%) no conjunto de dados sobre o direito lança uma chave para as obras, no entanto, deixar cair a média do aluno em quatro pontos percentuais e distorcer os dados.
O que faz um jornalista de dados fazer em tal caso? Aqui estão algumas opções:
Jogue fora o outlier. Se você estiver usando apenas a média em sua gráfica e estão preocupados que é enganosa, eliminar o outlier como uma aberração e, em seguida, calcular a média, sem essa semana, como mostrado na figura.
Neste exemplo, lançando o outlier significaria pontuação no teste média deste aluno salta para 87%, o que (como a primeira coluna mostra) é uma melhor representação de realização ao longo do prazo.
Se você vai com esta opção, certifique-se de adicionar uma nota explicando tudo: neste caso, a supressão de um ponto de dados. Sempre ser o mais transparente possível.
Mostrar os dados como está. Se você estiver usando apenas a média em sua gráfica ou tramando todos os dados em um gráfico, você pode sempre apresentar os dados exatamente como ele veio para você, como mostrado na figura a seguir.
Neste caso, você deve adicionar uma nota chamando o outlier de modo que o leitor está plenamente consciente disso.
construir um # 147-line de melhor ajuste. # 148- Esta opção só se aplica se você estiver indo para criar um gráfico que mostra todos os dados. Uma linha de melhor ajuste - também chamado de regressão linear - é uma média visual de seus dados: literalmente, a linha que representa seus pontos de dados dispersos melhor.