O Apache Hadoop Ecossistema
Hadoop é mais do que MapReduce e HDFS (Hadoop Distributed File System): É também uma família de projetos relacionados (um ecossistema, realmente) para computação distribuída e processamento de dados em grande escala. A maioria (mas não todos) desses projetos são hospedados pela Apache Software Foundation. A tabela lista alguns destes projectos.
Nome do Projeto | Descrição |
---|---|
Ambari | Um conjunto integrado de ferramentas de administração do Hadoop forinstalling, monitoramento e manutenção de um cluster Hadoop. Alsoincluded são ferramentas para adicionar ou remover nós escravos. |
Avro | Um quadro para a serialização eficiente (uma espécie oftransformation) de dados em um formato binário compacto |
calha | Um serviço de fluxo de dados para a circulação de grandes volumes de logdata em Hadoop |
HBase | Um banco de dados colunar distribuída que usa HDFS para itsunderlying armazenamento. Com HBase, você pode armazenar dados em tabelas extremelylarge com estruturas de coluna variável. |
HCatalog | Um serviço para fornecer uma visão relacional dos dados armazenados inHadoop, incluindo uma abordagem padrão para dados tabulares |
colméia | Um armazém de dados distribuído para dados que são armazenados no HDFS-também fornece uma linguagem de consulta que é baseada em SQL (HiveQL) |
Matiz | A interface de administração Hadoop com ferramentas GUI úteis forbrowsing arquivos, emitindo consultas Hive e porco, e desenvolver Oozieworkflows |
cornaca | Uma biblioteca de aprendizagem de máquina algoritmos estatísticos que wereimplemented em MapReduce e pode rodar nativamente no Hadoop |
Oozie | Uma ferramenta de gerenciamento de fluxo de trabalho que pode lidar com o agendamento andchaining conjunto de aplicações Hadoop |
Porco | Uma plataforma para a análise de grandes conjuntos de dados que runson HDFS e com uma camada de infra-estrutura consiste de um compilerthat produz sequências de programas MapReduce e uma layerconsisting linguagem da linguagem de consulta chamada Pig Latin |
Sqoop | Uma ferramenta para mover de forma eficiente grandes quantidades de bases de dados betweenrelational dados e HDFS |
ZooKeeper | A interface simples para a coordenação centralizada de serviços (tais como nomeação, configuração e sincronização) usado aplicações bydistributed |
O ecossistema Hadoop e suas distribuições comerciais continuam a evoluir, com tecnologias e ferramentas novas ou melhoradas emergentes o tempo todo.
A figura mostra os diversos projetos do ecossistema Hadoop e como eles se relacionam com um outro: