Big Análise de Dados e Data Warehouse
Você vai encontrar o valor em trazer os recursos do data warehouse eo ambiente de dados grande juntos. Você precisa criar um ambiente híbrido em que grandes dados podem trabalhar lado a lado com o armazém de dados.
Menu
Primeiro, é importante reconhecer que o armazém de dados como ele é projetado hoje não vai mudar no curto prazo.
Portanto, é mais pragmática para usar o data warehouse para o que ele foi projetado para fazer - fornecer uma versão bem-controlados da verdade sobre um tópico que a empresa quer analisar. O armazém pode incluir informações sobre a linha de um determinado produto da empresa, seus clientes, seus fornecedores e os detalhes do valor das transações de um ano.
A informação gerida no data warehouse ou data mart departamental foi cuidadosamente construída de modo que os metadados é preciso. Com o crescimento de novas informações com base na Web, é prático e muitas vezes necessário analisar esta enorme quantidade de dados em contexto com dados históricos. Este é o lugar onde o modelo híbrido entra.
Certos aspectos de se casar com o data warehouse com dados de grandes pode ser relativamente fácil. Por exemplo, muitas das grandes fontes de dados provenientes de fontes que incluem os seus próprios metadados bem desenhados. sites de comércio eletrônico complexos incluem elementos de dados bem definidos. Portanto, quando a realização de análise entre o armazém e a fonte de dados grande, a organização de gestão da informação está trabalhando com dois conjuntos de dados com modelos de metadados cuidadosamente projetados que têm de ser racionalizado.
É claro que, em algumas situações, as fontes de informação falta de metadados expresso. Antes de um analista pode combinar os dados transacionais históricos com o Big Data menos estruturado, o trabalho tem de ser feito. Normalmente, a análise inicial de petabytes de dados irá revelar padrões interessantes que podem ajudar a prever as mudanças sutis em soluções de negócios ou potenciais ao diagnóstico de um paciente.
A análise inicial pode ser concluída utilizando ferramentas como o MapReduce com a estrutura Hadoop Distributed File System. Neste ponto, você pode começar a entender se é capaz de ajudar a avaliar o problema a ser abordado.
No processo de análise, é tão importante para eliminar os dados desnecessários, pois é para identificar os dados relevantes para o contexto de negócios. Quando essa fase estiver concluída, os dados restantes precisa ser transformado de modo que as definições de metadados são precisos. Desta forma, quando o big data é combinado com, dados históricos tradicionais do armazém, os resultados serão precisas e significativas.
O eixo central grande integração de dados
Este processo requer uma estratégia de integração de dados bem definida. Embora a integração de dados é um elemento crítico da gestão de dados grandes, é igualmente importante ao criar uma análise híbrido com o data warehouse. De facto, o processo de extracção de dados e transformando-a num ambiente híbrido é muito semelhante à forma como este processo é executado dentro de um armazém de dados tradicional.
No armazém de dados, os dados são extraídos dos sistemas de origem tradicionais, tais como sistemas de CRM ou ERP. É fundamental que os elementos de vários sistemas ser adequada.
Repensar a extração, transformação e carga para data warehouses
No armazém de dados, muitas vezes você encontrar uma combinação de tabelas relacionais de banco de dados, arquivos simples, e fontes não-relacionais. Um armazém de dados bem construídas vai ser arquitectado de modo a que os dados são convertidos para um formato comum, permitindo consultas para ser processado de forma precisa e consistente. Os arquivos extraídos deve ser transformada para coincidir com as regras de negócios e processos da área de assunto que o data warehouse é projetado para analisar.
Em outras palavras, os dados têm de ser extraídos a partir das grandes fontes de dados de modo a que essas fontes podem trabalhar de forma segura em conjunto e produzir resultados significativos. Além disso, as fontes têm de ser transformado de modo a que eles são úteis na análise da relação entre os dados de histórico e os dados mais dinâmico e em tempo real a partir de fontes de dados grandes.
Carregando informações no modelo de dados grande será diferente do que aquilo que seria de esperar em um data warehouse tradicional. Com data warehouses, depois que os dados foram codificados, nunca muda. Um armazém de dados típico irá fornecer o negócio com um instantâneo de dados com base na necessidade de analisar uma questão de negócios particular, que requer monitoramento, tais como inventário ou vendas.
A estrutura distribuída de dados grandes, muitas vezes, levam as organizações a dados primeira carga em uma série de nós e, em seguida, realizar a extracção e transformação. Ao criar um híbrido do data warehouse tradicional eo ambiente de dados grande, a natureza distribuída do ambiente de dados grande pode mudar dramaticamente a capacidade das organizações para analisar grandes volumes de dados em contexto com o negócio.