Fatores que aumentam a escala de análise estatística em Hadoop
A razão pela qual as pessoas provar os seus dados antes de executar análise estatística em Hadoop é que este tipo de análise, muitas vezes requer recursos computacionais significativos. Este não é apenas sobre volumes de dados: existem cinco principais fatores que influenciam a escala de análise estatística:
Este é fácil, mas temos de mencioná-lo: o volume de dados em que você vai realizar a análise definitivamente determina a escala de análise.
O número de transformações necessárias sobre o conjunto de dados antes de aplicar modelos estatísticos é definitivamente um fator.
O número de correlações entre pares que você precisa para calcular desempenha um papel.
O grau de complexidade dos cálculos estatísticos a ser aplicada é um factor.
O número de modelos estatísticos para ser aplicado ao seu conjunto de dados desempenha um papel significativo.
Hadoop oferece uma maneira de sair deste dilema, fornecendo uma plataforma para realizar cálculos de processamento massivamente paralelo em dados no Hadoop.
Ao fazê-lo, é capaz de virar os dados analíticos em fluxo, em vez de mover os dados do seu repositório para o servidor analítico, Hadoop oferece analytics diretamente para os dados. Mais especificamente, HDFS permite que você armazene suas montanhas de dados e, em seguida, trazer a computação (na forma de tarefas MapReduce) para os nós escravos.
O desafio comum representada pelo movimento dos sistemas tradicionais multi-processamento simétrico estatísticos (SMP) para a arquitetura Hadoop é a localização dos dados. Em plataformas SMP tradicionais, vários processadores compartilham o acesso a um único recurso memória principal.
Em Hadoop, HDFS replica as partições de dados em vários nós e máquinas. Além disso, algoritmos estatísticos que foram projetados para o processamento de dados em memória devem agora adaptar-se a conjuntos de dados que abrangem vários nós / prateleiras e não poderia esperar para caber em um único bloco de memória.