Principais Características HiveQL

A comunidade vibrante e ativa Apache Hive continuamente adicionars a uma já extensa conjunto de recursos, o que torna a cobertura exaustiva ainda mais difícil. A lista a seguir resume algumas das principais características HiveQL para você:

  • Segurança: Apache Hive fornece um subsistema de segurança que pode ser bastante útil na prevenção de corrupção de dados acidentais ou comprometimento entre os membros confiáveis ​​de grupos de trabalho. No entanto, o Manual Hive Língua afirma claramente que o subsistema Hive Segurança não é projetado para impedir que os usuários nefastas de comprometer um sistema Hive.

    segurança Hive pode ser estabelecida para usuários individuais, grupos e funções administrativas. Hive fornece privilégios que podem ser concedidos ou revogados a usuários, grupos ou funções administrativas. The Hive 0,10 liberação melhoria da segurança em ambientes multi-usuário, fornecendo autorização ao metastore e futuros lançamentos Hive irá fornecer crescente integração com a estrutura de segurança do Hadoop. Kerberos está a emergir como a tecnologia de escolha para a proteção de Apache Hadoop.

  • Locking Multi-User: Hive suporta acesso armazém multi-usuário quando configurado com Apache Zookeeper. Sem este apoio, um usuário pode ler uma tabela ao mesmo tempo outro usuário está excluindo que a tabela - o que é, obviamente, inaceitável.

    Acesso multi-usuário é habilitado através de variáveis ​​de configuração no arquivo hive-site.xml. Uma vez configurado, Hive adquire implicitamente bloqueios através Zookeeper para certas operações de tabela. Os usuários também podem gerenciar explicitamente bloqueios no Hive CLI. Fechaduras e propriedades de configuração associados / variáveis ​​estão descritos no Manual Hive Language.

  • Compressão: A compressão de dados pode não só economizar espaço no HDFS, mas também melhorar o desempenho, reduzindo o tamanho global das operações de entrada / saída. Além disso, a compressão entre os mapeadores e redutores Hadoop pode melhorar o desempenho, porque menos dados são passados ​​entre os nós do cluster.

    Hive suporta compressão intermediária entre os mapeadores e redutores, bem como a compressão de saída da tabela. Hive também compreende como ingerir dados comprimidos para o armazém. Arquivos compactados com gzip ou bzip2 pode ser lido por colmeia de CARREGAR DADOS comando.

  • Funções: HiveQL fornece um rico conjunto de operadores internos, funções embutidas, built-in funções agregadas e funções de tabela de geração de embutidos. Vários exemplos neste capítulo usam operadores internos, bem como built-in funções de agregação (AVG, MIN, e CONTAGEM, por exemplo).

    Para listar todas as funções internas para qualquer liberação Hive particular, usar o MOSTRAR FUNÇÕES comando HiveQL. Você também pode recuperar informações sobre uma função built-in usando os comandos HiveQL descrever a função function_name e Descrever a função ESTENDIDO function_name.

    usando o ESTENDIDA palavra-chave, por vezes, retorna exemplos de uso para a função built-in especificado. Além disso, Hive permite aos usuários criar suas próprias funções, chamadas de funções definidas pelo usuário, ou UDFs. Usando quadro UDF baseada em Java da Hive, você pode criar funções adicionais, incluindo agregados e funções de geração de tabela. Este recurso é uma das razões que Hive pode funcionar como uma ferramenta de ETL.

menu