Encontre os Outliers em seus dados Infographics

Na análise de dados para seus infográficos, você deve estar ciente de que alguns pontos de dados - conhecido como discrepantes - estava tão fora da norma, para chamar a atenção para si. Nos casos mais graves, podem mesmo distorcer dados e criar uma imagem enganosa do assunto. É preciso reconhecer quando você tem um outlier e então decidir o que fazer sobre isso.

Esta tabela contém um exemplo simples para demonstrar esta ideia. Os dois conjuntos de dados representam as notas do aluno, durante oito semanas, em dois exams- semanalmente os números são a porcentagem correta no exame. O conjunto de dados da esquerda (o primeiro exame) não contém um outlier, mas o conjunto de dados sobre a direita (o segundo exame) faz. A um outlier é mostrada em negrito.

Notas da Prova semanais
SemanaGraus (sem outlier)Graus (um outlier)
190%90%
288%88%
390%90%
485%50%
586%86%
687%87%
785%85%
884%84%
Média87%83%

A média na coluna do meio pinta muito uma imagem precisa da realização do aluno no teste regular. O outlier (negrito) único (50%) no conjunto de dados sobre o direito lança uma chave para as obras, no entanto, deixar cair a média do aluno em quatro pontos percentuais e distorcer os dados.

O que faz um jornalista de dados fazer em tal caso? Aqui estão algumas opções:

  • Jogue fora o outlier. Se você estiver usando apenas a média em sua gráfica e estão preocupados que é enganosa, eliminar o outlier como uma aberração e, em seguida, calcular a média, sem essa semana, como mostrado na figura.

    Neste exemplo, lançando o outlier significaria pontuação no teste média deste aluno salta para 87%, o que (como a primeira coluna mostra) é uma melhor representação de realização ao longo do prazo.

    image0.jpg

    Se você vai com esta opção, certifique-se de adicionar uma nota explicando tudo: neste caso, a supressão de um ponto de dados. Sempre ser o mais transparente possível.

  • Mostrar os dados como está. Se você estiver usando apenas a média em sua gráfica ou tramando todos os dados em um gráfico, você pode sempre apresentar os dados exatamente como ele veio para você, como mostrado na figura a seguir.

    Neste caso, você deve adicionar uma nota chamando o outlier de modo que o leitor está plenamente consciente disso.

    image1.jpg
  • construir um # 147-line de melhor ajuste. # 148- Esta opção só se aplica se você estiver indo para criar um gráfico que mostra todos os dados. Uma linha de melhor ajuste - também chamado de regressão linear - é uma média visual de seus dados: literalmente, a linha que representa seus pontos de dados dispersos melhor.

menu