Suavização de dados no Excel

Os estatísticos geralmente tem que olhar para as grandes massas de dados e encontrar padrões difíceis de ver. Às vezes, uma tendência global sugere uma ferramenta analítica particular. E às vezes essa ferramenta, embora estatisticamente poderoso, não ajuda o estatístico chegar a uma explicação.

A figura a seguir é um gráfico de home runs atingidas na liga americana de 1901 até 2008.

image0.jpg

A tendência geral óbvia é que, como o passar dos anos, mais home runs são atingidos. Montagem de uma linha de regressão confirma esta ideia. A equação

Home Runs = 24,325 * Year - 465395

é um excelente ajuste aos dados. A equação dá um valor de R-quadrado de 0,91, indicando que um modelo linear bem descreve a relação entre home runs e anos.

E entao . . . o que?

Apenas montagem de uma linha de regressão escamoteia coisas importantes dentro de beisebol - coisas grandes e pequenas que compõem a temporada de beisebol, uma época, uma história. E beisebol tem muitas dessas coisas. O objetivo é levá-los a revelar-se.

O outro extremo da linha de regressão é conectar os pontos. Isso seria apenas dar um monte de ziguezagues que provavelmente não vai iluminar um século de história.

O problema é como resumir sem eliminar demais: se livrar dos ziguezagues, mas manter os picos e vales importantes. Como você faz isso sem saber o que é importante com antecedência?

análise exploratória de dados (AED) ajuda a apontar o caminho. Uma técnica é chamado EDA suavização de três médio. Para cada ponto de dados em série, que substitua ponto de dados com a média de três números: o próprio ponto de dados, o ponto de dados que o precede, e o ponto de dados que se segue.

Por que a mediana? Ao contrário a média, a mediana não é sensível a valores extremos que ocorrem de vez em quando - como um zig zag ou um. O efeito é o de filtrar o ruído e deixar ups significativas e baixos.

Por três números? Como a maioria tudo em EDA, que não é ferro. Para alguns conjuntos de dados, você pode querer a mediana para cobrir mais números. É até as intuições, experiências e idéias do analista.

Outra técnica, Hanning, é uma média ponderada em execução. A substituição de um ponto de dados com a soma de um-quarto do ponto de dados anterior mais de metade do ponto de dados mais um quarto do ponto de dados seguinte. Ainda outra técnica é a pular significa.

Em EDA, você não apenas usar uma técnica em um conjunto de dados. Muitas vezes, você começa com um bom médio, repeti-la várias vezes, e em seguida, tentar um ou dois outros.

Para os dados no gráfico de dispersão, aplicar o bom três mediana, repeti-lo (isto é, aplicá-lo com os dados recém-suavizadas), Han de dados suavizados, e depois aplicar o salto dizer. Mais uma vez, nenhuma técnica (ou ordem de técnicas) é certo ou errado. Você aplicar o que você acha que ilumina características significativas dos dados.

A seguir é parte de uma folha de cálculo para tudo isso. Coluna A mostra do ano, e coluna B mostra o número de home runs bater esse ano na liga americana. As colunas restantes mostram suaviza sucessivas dos dados.

Coluna C aplica-se o bom três mediana para a coluna B, e Coluna D aplica-se o bom três mediano para coluna C. Uma rápida olhada nos números mostra que a repetição não faz muita diferença. Coluna E aplica hanning a coluna D, e Coluna F aplica o salto significa coluna E.

Nas colunas C a F, o número real de casa é executado é usada para o primeiro valor (para o ano de 1901) e para o valor final (para o ano 2008).

image1.jpg

Pode facilmente ver o efeito de cada técnica de alisamento sucessivos na linha alisada. A chave é para a direita; clique na área de desenho e escolha Selecionar dados no menu pop-up. Clique no nome da série de dados que representa a linha suavizada, edite o intervalo de células da série para refletir a coluna que contém a técnica de alisamento particular, e clique em OK para fechar as caixas de diálogo de edição.

E agora a história começa a se revelar. Em vez de uma linha de regressão que só lhe diz que home runs aumento como o passar dos anos, os altos e baixos estimular o pensamento a respeito de porque eles estão lá. Aqui está uma versão altamente abreviada da história do beisebol consistente com as voltas e reviravoltas da linha suavizada.

A baixa segmento plano de 1901 e 1920 significa o # 147-bola morta era, # 148- num momento em que a composição de uma bola de beisebol inibida bateu bolas de ir longe o suficiente para se tornar home runs.

Explorando e visualizando os dados estimula a reflexão sobre o que está produzindo os padrões os Descobre exploração. A especulação leva a hipóteses testáveis, que levam a análise.

menu