As limitações da amostragem em Hadoop
análise estatística está longe de ser um novo garoto sobre o bloco, e é notícia velha certamente que depende de processamento de grandes quantidades de dados para ganhar uma nova visão. No entanto, a quantidade de dados que está tradicionalmente processados por estes sistemas era na gama de entre 10 e 100 (ou centenas de) gigabytes - não o terabytes ou petabytes intervalos vistos hoje, em outras palavras.
E que muitas vezes necessário um caro multi-processamento simétrico (SMP) máquina com o máximo de memória possível para armazenar os dados sendo analisados. Isso porque muitos dos algoritmos utilizados pelas abordagens analíticas foram bastante # 147 de computação intensiva # 148- e foram projetados para funcionar na memória - uma vez que exigem múltiplos, e muitas vezes freqüente, passa através dos dados.
Confrontados com hardware caro e um bastante elevado compromisso em termos de tempo e memória RAM, as pessoas tentaram fazer as análises de carga de trabalho um pouco mais razoável, analisando apenas uma amostra dos dados. A ideia era manter as montanhas sobre montanhas de dados escondidos em segurança em armazéns de dados, movendo apenas uma amostra estatisticamente significativa dos dados de seus repositórios para um motor de estatística.
Enquanto a amostragem é uma boa idéia na teoria, na prática, esta é muitas vezes uma tática confiável. Encontrar uma amostra estatisticamente significativa pode ser um desafio para conjuntos de dados esparsos e / ou distorcidas, que são bastante comuns. Isto leva a amostragens mal julgados, o que pode introduzir outliers e pontos de dados anômalos, e pode, por sua vez, influenciar os resultados de sua análise.