Cloudera Impala e Hadoop

Computadores e Software / Big Data / Gestão de dados

Cloudera é um líder de software e serviços de provedor de Apache Hadoop no mercado de dados grande. Como Apache Broca, tecnologia Impala da Cloudera visa melhorar o tempo de resposta de consulta interativa para os usuários do Hadoop. Apache Hive tem proporcionado um mecanismo de consulta familiar e poderosa para os usuários do Hadoop, mas os tempos de resposta de consulta são muitas vezes inaceitável devido à dependência do ramo de MapReduce. A resposta de Cloudera para este problema é Impala.

Cloudera desenvolveu um mecanismo de consulta MPP, escrito em C ++, para substituir a camada de MapReduce alavancado pela Apache Hive. Ao contrário Dremel e Broca, Cloudera decidiu que um motor nativo C ++ MPP - em vez de um motor de Java - foi a resposta para consultas, Hadoop interativos rápidos.

Note-se que Impala utiliza HiveQL como uma interface de programação e mecanismos de consulta Exec da Impala são co-localizado com nós de dados HDFS, de acordo com a abordagem Hadoop dos dados co-localização com tarefas de processamento. Impala também pode usar HBase como armazenamento de dados. Nesse sentido, a Impala é uma extensão do Apache Hadoop, oferecendo uma alternativa muito de alto desempenho para o modelo Hive-on-top-of-MapReduce.

Cloudera e Twitter liderou o desenvolvimento do novo formato de arquivo Hadoop, que pode ser usado com Impala e está disponível como código aberto no GitHub. O formato de arquivo Parquet fornece um meio colunar robusta para armazenar dados no Hadoop. Ele suporta a compressão e codificação altamente eficiente, e é eficaz para armazenar estruturas de dados aninhados.

Você pode encontrar tecnologia Impala da Cloudera, que também foi inspirado pela invenção Dremel do Google.

Cloudera Impala e Hadoop

Semelhante

menu