Hadoop Zookeeper para Big Data
maior técnica de Hadoop para enfrentar os desafios de big data é sua capacidade de dividir e conquistar com Zookeeper. Depois que o problema foi dividida, a conquista se baseia na capacidade de empregar distribuídos e técnicas de processamento paralelo em todo o cluster Hadoop.
Para alguns problemas de big data, as ferramentas interativas são incapazes de fornecer os insights ou pontualidade necessárias para tomar decisões de negócios. Nesses casos, você precisa criar aplicações distribuídas para resolver esses problemas de big data. Zookeeper é forma de coordenar todos os elementos destas aplicações distribuídas de Hadoop.
Zookeeper como uma tecnologia é realmente simples, mas suas características são poderosas. Sem dúvida, seria difícil, se não impossível, para criar aplicações flexíveis e tolerantes a falhas distribuído Hadoop sem ele. Algumas das capacidades de Zookeeper são como se segue:
sincronização de processos: Zookeeper coordena o arranque e paragem de vários nós no cluster. Isto garante que todo o processamento ocorre na ordem pretendida. Quando um grupo de processo inteiro é completa, então e só então pode ocorrer o processamento subsequente.
Gerenciamento de configurações: Zookeeper pode ser usado para enviar atributos de configuração para qualquer ou todos os nós do cluster. Quando o processamento é dependente de recursos específicos que estão disponíveis em todos os nós, Zookeeper garante a consistência das configurações.
Auto-eleição: Zookeeper compreende a composição do cluster e pode atribuir um # 147-líder # 148- papel a um dos nós. Este líder / master lida com todas as solicitações do cliente em nome do cluster. Caso o nó líder falhar, outro líder será eleito entre os nós restantes.
mensagens confiável: Mesmo que as cargas de trabalho em Zookeeper são fracamente acoplada, você ainda tem uma necessidade de comunicação entre e entre os nós do cluster específicos do aplicativo distribuído. Zookeeper oferece uma publish / subscribe capacidade que permite a criação de uma fila. Esta fila garante a entrega da mensagem, mesmo no caso de uma falha de nó.
Porque Zookeeper está a gerir grupos de nós em serviço a um único aplicativo distribuído, é melhor implementada através racks. Isto é muito diferente do que os requisitos para o próprio (dentro de cremalheiras) cluster. A razão subjacente é simples: Zookeeper precisa executar, ser resiliente, e ser tolerante a falhas em um nível acima do próprio cluster.
Lembre-se que um cluster Hadoop já é tolerante a falhas, por isso vai curar-se. Zookeeper só precisa se preocupar com a sua própria tolerância a falhas.
O ecossistema Hadoop e as distribuições comerciais suportados são sempre em mutação. Novas ferramentas e tecnologias são introduzidas, as tecnologias existentes são melhoradas, e algumas tecnologias são aposentados por um (espero melhor) de substituição. Esta é uma das maiores vantagens do código aberto.
Outra é a adoção de tecnologias de código aberto por empresas comerciais. Estas empresas melhorar os produtos, tornando-os melhor para todos, oferecendo apoio e serviços a um custo modesto. Esta é a forma como o ecossistema Hadoop evoluiu e por isso é uma boa escolha para ajudar a resolver seus desafios de big data.