Técnicas de EDA para Pressupostos Testing

Existem várias técnicas de análise exploratória de dados (AED) que você pode usar para testar hipóteses sobre um conjunto de dados. Estes incluem trama sequência de correr, ficar trama, histograma e gráfico de probabilidade normal.

plot sequência executar

Muitas técnicas de estatística baseiam-se no pressuposto de que os dados que estão sendo analisados ​​tem as seguintes propriedades:

  • Variáveis ​​independentes

  • Variáveis ​​extraídas de uma distribuição de probabilidade comum

  • As variáveis ​​com parâmetros comuns (por exemplo, média e desvio padrão)

UMA plot sequência executar testa se os dados está em conformidade com estes pressupostos. Por exemplo, a figura a seguir mostra um gráfico sequência de funcionamento para os retornos diários para o Standard and Poor índice do mercado de ações.

plot sequência correr dos retornos diários para o S & P 500.
plot sequência correr dos retornos diários para a SP 500.

Porque este é um gráfico de séries de tempo, que está a ser utilizado para determinar se os retornos para a SP 500 são independentes um do outro, se estão todos desenhados a partir da mesma distribuição de probabilidade, e se os parâmetros (média e variância) permanecem constantes ao longo do tempo .

A trama sequência de corrida é projetado para responder a estas perguntas:

  • Há alguma alteração na média dos dados?

  • Há alguma mudança na variância dos dados?

Além disso, você usar o gráfico da seqüência de execução para identificar os valores atípicos nos dados.

A trama dos retornos à SP 500 mostra que a média ea variância dos dados permanecem estáveis ​​ao longo do tempo, e que há não parecem ser os valores atípicos.

plot lag

UMA plot lag determina se os elementos de um conjunto de dados são aleatória (Independentes uns dos outros). Em outras palavras, a trama mostra se há ou não um padrão nos dados. Padrões nos dados são inconsistentes com a aleatoriedade.

Um valor defasado é aquela que ocorreu no passado. A defasagem de 1 refere-se a uma observação que tenha ocorrido um período no passado. Um desfasamento de 2 refere-se a uma observação que teve lugar dois períodos no passado, e assim por diante.

Uma trama de atraso mostra os valores de uma variável no eixo vertical, e os valores da mesma variável desfasada no eixo horizontal. Por exemplo, esta figura mostra um gráfico lag para os retornos diários para o Standard and Poor índice do mercado de ações.

plot Lag dos retornos diários para a Standard and Poor's 500 in 2013.
Lag lote de retornos diários para a Standard and Poor 500 em 2013.

Os pontos nesta parcela estão espalhados aleatoriamente sem um padrão particular. Isto é consistente com a suposição de aleatoriedade nos dados.

histograma

Você pode usar um histograma para identificar a distribuição seguido de um conjunto de dados. Um histograma pode mostrar vários detalhes importantes sobre um conjunto de dados, incluindo o seguinte:

  • O centro de dados

  • O spread (variabilidade) dos dados

  • A assimetria dos dados (se houver)

  • A presença de outliers

Por exemplo, esta figura mostra um histograma para os retornos diários para o Standard and Poor índice do mercado de ações.

Histograma dos retornos diários para o S & P 500.
Histograma dos retornos diários para a SP 500.

O gráfico mostra que os retornos da Standard and Poor têm uma média de aproximadamente 0 - as alturas das barras são maiores quase a 0. Os retornos parecem apresentar assimetria negativa (Isto é, retornos negativos extremos são mais comuns do que retornos positivos extremos) e têm uma maior magnitude. Há não parecem ser os valores atípicos nos dados.

gráfico de probabilidade normal

Use um gráfico de probabilidade normal para comparar um conjunto de dados para a distribuição normal. O eixo vertical deste gráfico mostra os quantis do conjunto de dados, e o eixo horizontal mostra os quantis da distribuição normal. Se um conjunto de dados é normalmente distribuída, em seguida, o gráfico deve parecer uma linha reta com uma inclinação de 1.

Quantis são usados ​​para dividir um conjunto de dados em grupos de tamanho igual. Um tipo amplamente utilizado de quantil é o quartil, que (como discutido anteriormente) divide um conjunto de dados em quatro grupos iguais, cada um consistindo em 25 por cento dos dados. Outra opção popular é o percentil, que divide um conjunto de dados em cem grupos iguais, cada um composto de um por cento das dados.

A figura a seguir mostra um gráfico de probabilidade normal para os retornos diários para o Standard and Poor índice do mercado de ações.

gráfico de probabilidade normal dos retornos diários para o S & P 500 em 2013.
gráfico de probabilidade normal dos retornos diários para o SP 500 em 2013.

O gráfico mostra que os retornos para o SP 500 estão perto de ser normal, com desvios nas caudas da distribuição.

menu