Mostram a distribuição com histogramas

histogramas

são gráficos de barras que mostram que fração dos sujeitos têm valores abrangidos intervalos especificados. O principal objetivo de um histograma é para mostrar como os valores de um valor numérico são distribuídos. Esta distribuição é uma aproximação da frequência de distribuição de população verdadeiro para essa variável.

image0.jpg

A curva suave mostra como valores de QI são distribuídos em um infinitamente grande população. A altura da curva em qualquer valor IQ é proporcional à fracção da população na vizinhança imediata de que o QI. Esta curva tem a típica # 147 de sino # 148- forma de uma distribuição normal.

O histograma indica como o QI de 60 indivíduos amostrados aleatoriamente da população pode ser distribuído. Cada barra representa um intervalo de valores de QI com uma largura de dez pontos de QI, ea altura de cada barra é proporcional ao número de sujeitos na amostra cujo QI caiu dentro desse intervalo.

distribuições log-normais

Como um exemplo, é apenas uma representação imperfeita da população, determinando a forma precisa de uma distribuição pode ser difícil, a menos que o tamanho da amostra é muito grande. No entanto, um histograma geralmente ajuda a detectar enviesada dados.

Uma forma distorcida é típico de um log-normal distribuição, o que ocorre muito frequentemente na obra biológica. É chamado log-normal porque se você tomar o logaritmo de cada valor de dados (não importa que tipo de logaritmo você tomar), os logs resultantes terão uma distribuição normal.

image1.jpg

Por isso, é boa prática para preparar um histograma para cada variável numérica que pretende analisar, para ver se é visivelmente torto e, em caso afirmativo, se um logarítmica # 147-transformação # 148- torna a distribuição mais quase normal.

Outras distribuições anormais

Log-normalidade não é o único tipo de não-normalidade que podem surgir em dados do mundo real. Dependendo do processo subjacente que origina os dados, os números podem ser distribuídos por outros meios.

Por exemplo, as contagens de eventos muitas vezes se comportam de acordo com a distribuição de Poisson e pode ser, pelo menos aproximadamente, normalizada tomando a raiz quadrada de cada contagem (em vez de o logaritmo, como você faz para dados de log-normal). Ainda outros processos podem dar origem a esquerda; dados inclinados ou para dados com duas (ou mais) picos.

E se nem o log-normal, nem a transformação da raiz quadrada normaliza os dados distorcidos? Uma abordagem consiste em utilizar o Box-Cox transformação, que tem a fórmula geral: Transformado x = (xUMA- 1) /UMA, Onde UMA é um parâmetro ajustável que você pode variar de negativo para valores positivos.

Dependendo do valor de UMA, esta transformação pode muitas vezes fazer à esquerda; enviesada ou para a direita; dados inclinados mais simétrica (e mais normalmente distribuído). A figura mostra como a transformação Box-Cox pode ajudar a normalizar os dados enviesados.

image2.jpg

Alguns software permite que você varie UMA através de uma gama de valores positivos ou negativos usando um controle deslizante na tela que você pode mover com o mouse. Conforme você desliza a UMA valorizar e para trás, você vê o histograma mudar a sua forma a partir da esquerda, inclinado para simétrica para a direita; enviesada. Aqui, usando UMA = 0,12 normaliza os dados muito bem.

Quando UMA é exactamente 0, a fórmula de Box-Cox torna-se 0/0, que é indeterminada. Mas pode-se mostrar que, como UMA se aproxima de 0 (a partir do lado positivo ou negativo), a fórmula de Box-Cox torna-se a mesma que a função de logaritmo. Assim, a transformação logarítmica é apenas um caso especial de transformação mais geral Box-Cox.

Se você não consegue encontrar qualquer transformação que faz olhar os seus dados mesmo aproximadamente normal, então você tem que analisar seus dados usando não paramétrico métodos, que não assuma que os seus dados são normalmente distribuídos.

menu