Modernização de armazém de dados com Hadoop
Os armazéns de dados estão agora sob stress, tentando lidar com a crescente demanda de seus recursos finitos. Hadoop pode proporcionar alívio significativo nesta situação armazém de dados.
O rápido aumento na quantidade de dados gerados no mundo tem também armazéns de dados afetados porque os volumes de dados que gerem estão aumentando - em parte porque mais estruturada dados, o tipo de dados que são fortemente tipificados e entalhado em linhas e colunas - é gerado, mas também porque muitas vezes você tem que lidar com os requisitos regulamentares destinadas a manter queryable acesso a dados históricos.
Além disso, a capacidade de processamento de dados em armazéns é muitas vezes usado para executar transformações de dados relacionais, uma vez que, quer o próprio armazém entra ou é carregado para uma Data Mart criança (Um subconjunto separado do armazém de dados) para um aplicativo de análise específica.
Além disso, a necessidade está aumentando para os analistas de emissão de novas consultas com os dados estruturados armazenados em armazéns, e essas consultas ad hoc, muitas vezes pode usar recursos significativos de processamento de dados. Às vezes, um relatório de uma só vez pode ser suficiente, e às vezes uma análise exploratória é necessário encontrar perguntas que ainda não foram que pediram pode gerar um valor comercial significativo.
A linha inferior é que os data warehouses são muitas vezes sendo usado para fins além de seu design original.
A figura mostra, usando arquitetura de alto nível, como Hadoop pode viver ao lado de armazéns de dados e cumprir alguns dos propósitos que não são projetados para.
Hadoop é um armazém ajudante, não uma substituição armazém. Hadoop pode modernizar um ecossistema de armazenamento de dados em quatro maneiras, aqui eles são, em resumo:
Fornecer uma zona de aterragem para todos os dados.
Manter os dados para fornecer um arquivo de dados queryable frio.
em larga escala a eficiência de processamento em lote de alavancagem do Hadoop para pré-processar e transformar os dados para o armazém.
Ativar um ambiente para ad hoc descoberta de dados.