Acesso SQL e Apache Hive

Apache Hive é, indiscutivelmente, a interface de consulta de dados mais difundida na comunidade Hadoop. Originalmente, as metas de design para Hive não eram para compatibilidade SQL completa e de alta performance, mas foram para fornecer uma interface fácil, um pouco familiar para os desenvolvedores que precisam emitir consultas em lote contra Hadoop.

Esta abordagem bastante fragmentada já não funciona, assim que a demanda cresce para suporte SQL real e bom desempenho. Hortonworks respondeu a esta demanda, criando o projeto Stinger, onde ele investiu seus recursos de desenvolvedor na melhoria da Hive para ser mais rápido, para dimensionar a um nível petabyte, e para ser mais compatível com os padrões SQL. Este trabalho deveria ser entregue em três fases.

Nas Fases 1 e 2, você viu uma série de otimizações para como as consultas foram processados, bem como suporte adicional para os dados SQL tradicionais tipos-a adição do formato ORCFile para processamento mais eficiente e Storage- e integração com fio para um melhor desempenho.

Na Fase 3, as evoluções verdadeiramente significativos ocorrem, que dissociar Hive do MapReduce. Especificamente, envolve o lançamento do Apache Tez, que é um modelo de processamento alternativa para Hadoop, projetado para cargas de trabalho interativas.

Além do projeto Stinger, Hortonworks está liderando uma iniciativa ambiciosa para permitir Hive para apoiar a edição de dados no nível de linha com o cumprimento integral das propriedades ACID para sistemas de banco de dados: atomicidade, consistência, níveis de isolamento e durabilidade.

menu