Estatísticas robustas e Big Data
Uma estatística é dito ser robusto Se isso não é fortemente influenciada pela presença de outliers. Por exemplo, a média não é robusta, porque pode ser fortemente afectada pela presença de outliers. Por outro lado, a mediana é robusta - que não é afectada por valores extremos.
Por exemplo, suponha que os seguintes dados representa uma amostra dos rendimentos do agregado familiar em uma cidade pequena (medido em milhares de dólares por ano):
32, 47, 20, 25, 56
Está calcular a média da amostra como a soma dos cinco observações dividido por cinco:
A média da amostra é de US $ 36.000 por ano. A maioria dos agregados familiares da amostra são muito próximo a este valor.
Suponha vez que a amostra é constituída pelos seguintes valores:
32, 47, 20, 25, 376
Porque a renda familiar de US $ 376.000 é substancialmente maior do que a renda familiar próximo mais próximo de US $ 32.000, a renda familiar de US $ 376.000 pode ser considerado um outlier.
Com o outlier, a média da amostra é agora a seguinte:
Esta medida não é representativa da maioria das famílias na cidade. Assim, a utilidade da média é comprometida na presença de outliers.
Você calcular a mediana da amostra, classificando os dados do menor para o maior e, em seguida, encontrar o valor que divide a amostra ao meio. Em outras palavras, a metade das observações estão abaixo da média, e a outra metade são acima.
A primeira amostra:
32, 47, 20, 25, 56
A amostra classificadas:
20, 25, 32, 47, 56
Neste caso, a média é de 32 porque metade dos restantes observações estão abaixo de 32 e a outra metade está acima dele.
A segunda amostra:
32, 47, 20, 25, 376
A amostra classificadas:
20, 25, 32, 47, 376
Apesar da presença do outlier de 376, a mediana ainda é 32. Ele não foi afetado pelo outlier. Isto mostra que, ao contrário a média, a mediana é robusto com respeito a outliers.
Outros exemplos de estatísticas robustas incluem a mediana, desvio absoluto, eo intervalo interquartil.