Distribuições de Probabilidade na análise estatística de Big Data
As distribuições de probabilidade é uma de muitas técnicas estatísticas que podem ser utilizados para analisar os dados para encontrar padrões úteis. Você usa um distribuição de probabilidade para calcular as probabilidades associadas com os elementos de um conjunto de dados:
Distribuição binomial: Você usaria a distribuição binomial para analisar as variáveis que podem assumir apenas um dos dois valores. Por exemplo, você pode determinar a probabilidade de que uma determinada percentagem de membros de um clube desportivo são deixados; handed.
Distribuição de veneno: Você usaria a distribuição de Poisson para descrever a probabilidade de um determinado número de eventos que ocorrem durante um intervalo de tempo. Por exemplo, poderia ser usado para descrever a probabilidade de um determinado número de visitas em um site durante a próxima hora.
Distribuição normal: A distribuição normal é a distribuição de probabilidade mais amplamente utilizado na maioria das disciplinas, incluindo economia, finanças, marketing, biologia, psicologia, e muitos outros. Um dos traços mais característicos da distribuição normal é simetria - a probabilidade de uma variável sendo uma determinada distância abaixo da média da distribuição é igual a probabilidade de ser a mesma distância acima da média.
Por exemplo, se a altura média de todos os homens nos Estados Unidos é de 70 polegadas, e as alturas estão normalmente distribuídos, um homem escolhido aleatoriamente é igualmente susceptível de ser entre 68 e 70 polegadas de altura, enquanto está a ser entre 70 e 72 polegadas de altura .
A distribuição normal funciona bem com muitas aplicações. Por exemplo, é muitas vezes usado no campo das finanças para descrever os retornos de ativos financeiros. Devido à sua facilidade de interpretação e aplicação, a distribuição normal é usada às vezes mesmo quando a suposição de normalidade é de apenas aproximadamente correta.
distribuição t de Student: distribuição t de Student é semelhante à distribuição normal, mas com distribuição t de Student, valores muito pequenos ou muito grandes são muito mais prováveis de ocorrer. Esta distribuição é frequentemente usado em situações em que uma variável apresenta muita variação para ser consistente com a distribuição normal. Isso é verdade quando as propriedades de pequenas amostras estão sendo analisadas. Com pequenas amostras, a variação entre as amostras é susceptível de ser muito considerável, de modo que a distribuição normal não deve ser utilizado para descrever as suas propriedades.
distribuição t de Student foi desenvolvido por W.S. Gosset enquanto trabalhava na empresa cervejeira Guinness. Ele foi tentar descrever as propriedades de pequenos meios de amostra.
A distribuição qui-quadrado: A distribuição do Qui-quadrado é adequado para vários tipos de aplicações. Por exemplo, você pode usá-lo para determinar se uma população segue uma distribuição de probabilidade particular. Você também pode usá-lo para testar se a variância de uma população é igual a um valor especificado, e para testar a independência dos dois conjuntos de dados.
O F-distribuição: A distribuição F é derivado a partir da distribuição do Qui-quadrado. Você usá-lo para testar se as variâncias de duas populações iguais uns aos outros. A distribuição-F também é útil em aplicações, tais como a análise de regressão.