IBM Big SQL e Hadoop

IBM tem uma longa história de trabalho com SQL e tecnologia de banco de dados. De acordo com esta história, a solução da IBM para SQL em Hadoop utiliza componentes de suas tecnologias de banco de dados relacionais que são portado para rodar em Hadoop.

Se você está em todos familiarizados com nomenclatura de produtos da IBM para seus produtos e características de Big Data, você pode facilmente adivinhar o que eles nomearam seu SQL na solução Hadoop: Big SQL. O objetivo do Big SQL é fornecer uma interface SQL em Hadoop que dá aos usuários o máximo possível do que eles estão acostumados com as interfaces SQL para bancos de dados relacionais.

Isto significa amplo suporte a sintaxe de consulta, desempenho rápido que não requer que os usuários precisem macaco com suas consultas, e a capacidade de controlar a segurança dos dados.

A figura mostra uma implementação parcial do BigInsights, distribuição Hadoop da IBM rodando Big SQL.

image0.jpg

Aqui, você pode ver um subconjunto dos nós mestre e nós de dados por trás do firewall BigInsights. Um dos nós mestre está executando o servidor SQL Big, que inclui o compilador SQL da IBM e otimizador. Também incluído neste nó mestre é um catálogo, onde os metadados e as estatísticas sobre quaisquer dados catalogados em HDFS é armazenada para uso pelo compilador / otimizador.

Subseções de consultas são enviadas para os nós de dados aplicáveis ​​onde os dados solicitados estão armazenados, e há o Big SQL Runtime (que é SQL tempo de execução do IBM) executa a carga de trabalho. Ao invés de mapeador de corrida e processos redutor e persistir arquivos com conjuntos de resultados intermediários, Big SQL usa continuamente executando daemons que passam mensagens entre si.

É importante notar que os dados a serem consultados são armazenadas e gerenciadas pelo Hadoop. Big SQL suporta formatos de arquivos Hadoop padrão - por exemplo, RCFile e Parquet.

Big SQL fornece a mesma amplo suporte SQL como os produtos de banco de dados relacional IBM - por exemplo, ANSI SQL-2011, e compatibilidade para SQL Linguagem Procedural da IBM (SQL / PL). (No momento da escrita, a IBM estava trabalhando para fornecer suporte para dialeto SQL da Oracle e da sua linguagem procedural PL / SQL).

Junto com o motor padrão SQL IBM vêm uma série de outros recursos, principalmente da IBM row- e segurança baseada em coluna (também conhecido como refinadas de controle de acesso, ou FGAC), onde apenas os usuários específicos podem ser autorizados a ver certos conjuntos de as linhas de dados ou colunas.

Big SQL vem com o cliente padrão IBM Data Server, que inclui um pacote de driver. aplicações de banco de dados tradicionais podem se conectar ao cluster BigInsights Hadoop e segura troca de dados criptografados em SSL.

menu