Estatísticas robustas e Big Data

Uma estatística é dito ser robusto Se isso não é fortemente influenciada pela presença de outliers. Por exemplo, a média não é robusta, porque pode ser fortemente afectada pela presença de outliers. Por outro lado, a mediana é robusta - que não é afectada por valores extremos.

Por exemplo, suponha que os seguintes dados representa uma amostra dos rendimentos do agregado familiar em uma cidade pequena (medido em milhares de dólares por ano):

32, 47, 20, 25, 56

Está calcular a média da amostra como a soma dos cinco observações dividido por cinco:

image0.jpg

A média da amostra é de US $ 36.000 por ano. A maioria dos agregados familiares da amostra são muito próximo a este valor.

Suponha vez que a amostra é constituída pelos seguintes valores:

32, 47, 20, 25, 376

Porque a renda familiar de US $ 376.000 é substancialmente maior do que a renda familiar próximo mais próximo de US $ 32.000, a renda familiar de US $ 376.000 pode ser considerado um outlier.

Com o outlier, a média da amostra é agora a seguinte:

image1.jpg

Esta medida não é representativa da maioria das famílias na cidade. Assim, a utilidade da média é comprometida na presença de outliers.

Você calcular a mediana da amostra, classificando os dados do menor para o maior e, em seguida, encontrar o valor que divide a amostra ao meio. Em outras palavras, a metade das observações estão abaixo da média, e a outra metade são acima.

A primeira amostra:

32, 47, 20, 25, 56

A amostra classificadas:

20, 25, 32, 47, 56

Neste caso, a média é de 32 porque metade dos restantes observações estão abaixo de 32 e a outra metade está acima dele.

A segunda amostra:

32, 47, 20, 25, 376

A amostra classificadas:

20, 25, 32, 47, 376

Apesar da presença do outlier de 376, a mediana ainda é 32. Ele não foi afetado pelo outlier. Isto mostra que, ao contrário a média, a mediana é robusto com respeito a outliers.

Outros exemplos de estatísticas robustas incluem a mediana, desvio absoluto, eo intervalo interquartil.

menu