Hadoop como um destino de arquivo de dados
O custo barato de armazenamento para Hadoop mais a capacidade de consultar dados do Hadoop com o SQL faz Hadoop o principal destino para os dados de arquivamento. Este caso de uso tem um baixo impacto sobre sua organização, porque você pode começar a construir a sua habilidade Hadoop definido em dados que não está armazenado em sistemas de desempenho de missão crítica.
Além do mais, você não tem que trabalhar duro para obter os dados. (Uma vez que os dados arquivados normalmente são armazenados em sistemas que têm pouco uso, é mais fácil de obter pelo que os dados que está em # 147-centro das atenções # 148- em sistemas de desempenho de missão crítica, como armazéns de dados.) Se você já estiver usando o Hadoop como zona de pouso, você tem a base para o seu arquivo! Você simplesmente manter o que você deseja arquivar e excluir o que não fazer.
Se você pensar sobre zona de aterragem do Hadoop, o arquivo queryable, mostrado na figura, estende-se o valor de Hadoop e passa a integrar peças que provavelmente já existem em sua empresa. É um grande exemplo de encontrar economias de escala e de custo oportunidades de take-out usando Hadoop.
Aqui, o componente de arquivo liga a zona de aterragem e data warehouse. Os dados que estão sendo arquivados origina no armazém e é então armazenado no cluster Hadoop, que é também o provisionamento da zona de aterragem. Em suma, você pode usar o mesmo cluster Hadoop para arquivar dados e agir como sua zona de aterragem.
A tecnologia-chave Hadoop você usaria para realizar o arquivamento é Sqoop, que pode mover os dados a serem arquivados a partir do armazém de dados para Hadoop. Você vai precisar de considerar que forma pretende que os dados para levar em seu cluster Hadoop. Em geral, os arquivos compactados Hive são uma boa escolha.
É possível, é claro, transformar os dados das estruturas de armazém em alguma outra forma (por exemplo, uma forma normalizada para reduzir a redundância), mas isto geralmente não é uma boa ideia. Manter os dados na mesma estrutura que o que está no armazém, será muito mais fácil de executar uma consulta de conjunto de dados completo em todo os dados arquivados em Hadoop e os dados ativo que está no armazém.
O conceito de consultar ambos os conjuntos de dados ativos e arquivados traz uma outra consideração: a quantidade de dados que você deve arquivar? Há realmente duas escolhas comuns: arquivar tudo conforme os dados são adicionadas e alteradas no armazém de dados ou somente arquivar os dados que consideram ser frio.
Arquivando tudo tem a vantagem de permitir que você emitir facilmente consultas a partir de uma única interface em todo o conjunto de dados - sem um arquivo completo, você precisa descobrir uma solução de consulta federada onde você teria de união os resultados do arquivo e o data warehouse ativo.
Mas a desvantagem é que as actualizações regulares dos dados quentes do seu data warehouse poderia causar dores de cabeça para o arquivo baseado em Hadoop. Isso ocorre porque quaisquer alterações aos dados em linhas e colunas individuais exigiria exclusão atacado e re-catalogação de conjuntos de dados existentes.
Agora que os dados de arquivo é armazenado em sua zona de aterragem baseados em Hadoop (supondo que você está usando uma opção como os arquivos compactados Hive mencionados anteriormente), você pode consultá-lo. Este é o lugar onde o SQL em soluções Hadoop pode se tornar interessante.
Um excelente exemplo do que é possível é para as ferramentas de análise (à direita na figura) para ser executado diretamente relatórios ou análises sobre os dados arquivados armazenados no Hadoop. Esta não é substituir o data warehouse - afinal, o Hadoop não seria capaz de igualar as características de desempenho do armazém para centenas de apoio ou mais usuários simultâneos perguntas complexas.
O ponto aqui é que você pode usar ferramentas de relatórios contra o Hadoop para experimentar e chegar a novas perguntas para responder em um armazém dedicado ou mart.
Ao iniciar seu primeiro projeto baseado em Hadoop para o arquivamento de dados do armazém, não quebre os processos atuais até que você tenha testado-los plenamente na sua nova solução de Hadoop. Em outras palavras, se sua estratégia de armazenamento atual é para arquivar em fita, manter esse processo no lugar, e dual-arquivar os dados em Hadoop e fita até que você tenha testado completamente o cenário (que normalmente incluiria a restauração dos dados do armazém, no caso de uma falha de armazém).
Embora você está mantendo (no curto prazo) dois repositórios de arquivo, você terá uma infra-estrutura robusta no lugar e testado antes de encerrar um processo tentou-e-verdadeiro. Este processo pode garantir que você permanecer empregado - com o seu empregador atual.
Este caso de uso é simples, porque não há nenhuma mudança para o armazém existente. O objetivo do negócio é ainda o mesmo: mais baratos os custos de armazenamento e de licenciamento de migração de dados raramente usados para um arquivo. A diferença neste caso é que a tecnologia por trás do arquivo é Hadoop ao invés de armazenamento off-line, como uma fita.
Além disso, vários fornecedores de arquivo começaram a incorporar Hadoop em suas soluções (por exemplo, permitindo que os seus ficheiros de arquivo de propriedade para residir no HDFS), assim esperamos capacidades nesta área para expandir em breve.
Como você desenvolver habilidades Hadoop (como troca de dados entre o Hadoop e bancos de dados relacionais e dados que consultam no HDFS), você pode usá-los para resolver problemas maiores, como projetos de análise, o que poderia fornecer valor adicional para investimento Hadoop da sua organização.