Executando aplicativos Antes Hadoop 2

Porque muitas implantações Hadoop existentes ainda ainda não estão usando mais um recurso Negociador (FIO), dê uma rápida olhada em como Hadoop conseguiu seu processamento de dados antes dos dias de Hadoop 2. Concentre-se no papel que JobTracker daemons mestre e daemons de escravos TaskTracker jogado na manipulação de processamento de MapReduce.

Todo o ponto de empregar sistemas distribuídos é ser capaz de implantar recursos de computação em uma rede de computadores independentes de uma forma que é, fácil e barata tolerante a falhas.

Em um sistema distribuído como o Hadoop, onde você tem um cluster de nós de computação independentes, todos trabalhando em paralelo, uma grande dose de complexidade vai para garantir que todas as peças trabalham juntos. Como tal, estes sistemas normalmente têm camadas distintas para lidar com tarefas diferentes para suportar o processamento de dados em paralelo.

Este conceito, conhecido como o separação de preocupações, garante que se você for, por exemplo, o programador da aplicação, você não precisa se preocupar com os detalhes específicos para, digamos, o failover de tarefas do mapa. Em Hadoop, o sistema é constituído por estas quatro camadas distintas, como mostrado:

  • armazenamento distribuído: O Hadoop Distributed File System (HDFS) é a camada de armazenamento onde os dados e resultados intermédios e conjuntos de resultados finais são armazenados.

  • Gestão de recursos: Além de espaço em disco, todos nós escravos no cluster Hadoop tem ciclos de CPU, RAM e largura de banda de rede. Um sistema como Hadoop precisa ser capaz de dividir esses recursos para que várias aplicações e os usuários podem compartilhar o cluster de forma previsível e ajustáveis. Este trabalho é feito pelo daemon JobTracker.

  • estrutura de processamento: O fluxo do processo MapReduce define a execução de todas as aplicações em Hadoop 1. Isso começa com o mapa de fase continua com agregação com shuffle, tipo, ou merge- e termina com a fase de redução. Em Hadoop 1, este também é gerido pelo daemon JobTracker, com execução local a ser gerida por daemons TaskTracker em execução nos nós escravos.

  • Application Programming Interface (API): Os aplicativos desenvolvidos para Hadoop 1 precisava de ser codificada utilizando a API MapReduce. Em Hadoop 1, os projectos Hive e Pig fornecer programadores com interfaces mais fáceis para escrever aplicações Hadoop, e debaixo do capô, o seu código compila para baixo para MapReduce.

    image0.jpg

No mundo do Hadoop 1 (que era o único mundo que você teve até muito recentemente), todo o processamento de dados girava em torno de MapReduce.

menu