Técnicas de EDA para Pressupostos Testing
Existem várias técnicas de análise exploratória de dados (AED) que você pode usar para testar hipóteses sobre um conjunto de dados. Estes incluem trama sequência de correr, ficar trama, histograma e gráfico de probabilidade normal.
plot sequência executar
Muitas técnicas de estatística baseiam-se no pressuposto de que os dados que estão sendo analisados tem as seguintes propriedades:
Variáveis independentes
Variáveis extraídas de uma distribuição de probabilidade comum
As variáveis com parâmetros comuns (por exemplo, média e desvio padrão)
UMA plot sequência executar testa se os dados está em conformidade com estes pressupostos. Por exemplo, a figura a seguir mostra um gráfico sequência de funcionamento para os retornos diários para o Standard and Poor índice do mercado de ações.
Porque este é um gráfico de séries de tempo, que está a ser utilizado para determinar se os retornos para a SP 500 são independentes um do outro, se estão todos desenhados a partir da mesma distribuição de probabilidade, e se os parâmetros (média e variância) permanecem constantes ao longo do tempo .
A trama sequência de corrida é projetado para responder a estas perguntas:
Há alguma alteração na média dos dados?
Há alguma mudança na variância dos dados?
Além disso, você usar o gráfico da seqüência de execução para identificar os valores atípicos nos dados.
A trama dos retornos à SP 500 mostra que a média ea variância dos dados permanecem estáveis ao longo do tempo, e que há não parecem ser os valores atípicos.
plot lag
UMA plot lag determina se os elementos de um conjunto de dados são aleatória (Independentes uns dos outros). Em outras palavras, a trama mostra se há ou não um padrão nos dados. Padrões nos dados são inconsistentes com a aleatoriedade.
Um valor defasado é aquela que ocorreu no passado. A defasagem de 1 refere-se a uma observação que tenha ocorrido um período no passado. Um desfasamento de 2 refere-se a uma observação que teve lugar dois períodos no passado, e assim por diante.
Uma trama de atraso mostra os valores de uma variável no eixo vertical, e os valores da mesma variável desfasada no eixo horizontal. Por exemplo, esta figura mostra um gráfico lag para os retornos diários para o Standard and Poor índice do mercado de ações.
Os pontos nesta parcela estão espalhados aleatoriamente sem um padrão particular. Isto é consistente com a suposição de aleatoriedade nos dados.
histograma
Você pode usar um histograma para identificar a distribuição seguido de um conjunto de dados. Um histograma pode mostrar vários detalhes importantes sobre um conjunto de dados, incluindo o seguinte:
O centro de dados
O spread (variabilidade) dos dados
A assimetria dos dados (se houver)
A presença de outliers
Por exemplo, esta figura mostra um histograma para os retornos diários para o Standard and Poor índice do mercado de ações.
O gráfico mostra que os retornos da Standard and Poor têm uma média de aproximadamente 0 - as alturas das barras são maiores quase a 0. Os retornos parecem apresentar assimetria negativa (Isto é, retornos negativos extremos são mais comuns do que retornos positivos extremos) e têm uma maior magnitude. Há não parecem ser os valores atípicos nos dados.
gráfico de probabilidade normal
Use um gráfico de probabilidade normal para comparar um conjunto de dados para a distribuição normal. O eixo vertical deste gráfico mostra os quantis do conjunto de dados, e o eixo horizontal mostra os quantis da distribuição normal. Se um conjunto de dados é normalmente distribuída, em seguida, o gráfico deve parecer uma linha reta com uma inclinação de 1.
Quantis são usados para dividir um conjunto de dados em grupos de tamanho igual. Um tipo amplamente utilizado de quantil é o quartil, que (como discutido anteriormente) divide um conjunto de dados em quatro grupos iguais, cada um consistindo em 25 por cento dos dados. Outra opção popular é o percentil, que divide um conjunto de dados em cem grupos iguais, cada um composto de um por cento das dados.
A figura a seguir mostra um gráfico de probabilidade normal para os retornos diários para o Standard and Poor índice do mercado de ações.
O gráfico mostra que os retornos para o SP 500 estão perto de ser normal, com desvios nas caudas da distribuição.