Que acesso SQL realmente significa

Uma série de empresas estão a investir fortemente para conduzir projetos de código aberto e soluções proprietárias para acesso SQL aos dados do Hadoop. Quando você ouvir o termo Acesso SQL, você deve saber que você está confiando em alguns pressupostos básicos:

  • padrões de linguagem: O padrão mais importante, naturalmente, implica a própria linguagem. Muitos existem Nº 147-SQL-like # 148- soluções, embora eles geralmente não medem-se em certos aspectos fundamentais - maneiras que impediriam instruções SQL ainda típicos de trabalhar.

    O American National Standards Institute (ANSI) estabeleceu SQL como uma norma técnica oficial, e da indústria de TI aceita o ANSI SQL-92 padrão como representando o valor de referência para o cumprimento SQL básico. ANSI lançou uma série de versões progressivamente mais avançadas ao longo dos anos como as tecnologias de banco de dados têm evoluído.

  • Drivers: Outro componente chave em uma solução de acesso SQL é a condutor - a interface para aplicações para conectar e trocar dados com o armazenamento de dados. Sem condutor, não há nenhuma interface SQL para todos os aplicativos ou ferramentas de cliente para conectar-se para a apresentação de consultas SQL.

    Como tal, qualquer SQL na solução Hadoop tem que ter os drivers JDBC e ODBC, no mínimo, porque eles são as tecnologias de interface de banco de dados mais comumente usados.

  • Acesso em tempo real: Até Hadoop 2, a execução baseada em MapReduce era a única opção disponível para análise em relação aos dados armazenados no Hadoop. Para consultas relativamente simples, envolvendo uma análise completa dos dados em uma tabela, o Hadoop foi muito rápido em comparação com um banco de dados relacional tradicional.

    Tenha em mente que este é um caso de lote uso de análise, caso velozes pode significar horas, dependendo da quantidade de dados está envolvido. Mas quando se tratava de consultas mais complexas, envolvendo subconjuntos de dados, Hadoop não se saiu bem. MapReduce é uma estrutura de processamento em lote, para atingir um alto desempenho para consultas em tempo real antes de Hadoop 2 foi arquitetonicamente impossível.

    Um motivador cedo para FIO, a nova gestão de recursos e sistema de agendamento no bloco, foi esta necessidade de apoio a outras estruturas de processamento para permitir que as cargas de trabalho em tempo real, como consultas SQL interativas. Na verdade, uma solução SQL adequada não deve deixar as pessoas à espera para consultas razoáveis.

  • dados mutáveis: Uma pergunta comum em muitas discussões em torno de suporte SQL no Hadoop é ? # 147 Podemos usar, e declarações, como nós seria capaz de fazer em um banco de dados típico relacional # 148- Por enquanto, a resposta é não, o que reflecte a natureza do HDFS - ele é focado em arquivos grandes, imutáveis. Tecnologias como o Hive oferta de acesso somente leitura a esses arquivos. Independentemente disso, estão em curso trabalhos no projeto Hive Apache.

menu