Armazenar grandes volumes de dados com HBase

HBase é um não-relacional de banco de dados (colunar) distribuído, que utiliza HDFS como seu armazenamento de persistência para projetos de big data. Ele é modelado após Google BigTable e é capaz de hospedagem tabelas muito grandes (milhares de milhões de colunas / linhas), porque ele é mergulhado em clusters Hadoop de hardware commodity.

HBase fornece aleatória, em tempo real, o acesso de leitura / gravação para big data. HBase é altamente configurável, proporcionando uma grande flexibilidade para lidar com grandes quantidades de dados de forma eficiente. Agora, dê uma olhada em como HBase pode ajudar a resolver seus desafios de big data.

HBase é um banco de dados colunar, portanto, todos os dados são armazenados em tabelas com linhas e colunas semelhantes a sistemas de gerenciamento de banco de dados relacional (RDBMSs). A intersecção de uma linha e uma coluna é chamada de célula. Uma diferença importante entre as mesas HBase e tabelas RDBMS é versionamento.

Cada valor de célula inclui uma # 147-version # 148- atributo, que nada mais é do que um timestamp identificar exclusivamente o celular. Versionamento controla as alterações na célula e torna possível recuperar qualquer versão do conteúdo caso seja necessário. HBase armazena os dados em células em ordem decrescente (usando o timestamp), então uma leitura sempre vai encontrar os valores mais recentes primeiro.

Colunas em HBase pertencem a uma família de coluna. O nome da família coluna é utilizado como um prefixo para identificar os membros da sua família. Por exemplo, frutas: maçã e frutas: Banana são membros da frutas família coluna. implementações HBase estão sintonizados a nível familiar coluna, por isso é importante estar consciente de como você está indo para acessar os dados e como grande você espera que as colunas para ser.

As linhas em tabelas HBase também tem uma chave que lhes estão associados. A estrutura da chave é muito flexível. Pode ser um valor calculado, uma corda, ou mesmo outra estrutura de dados. A chave é usada para controlar o acesso às células na fila, e que estão armazenadas na ordem do valor baixo para um valor elevado.

Todos esses recursos juntos compõem o esquema. O esquema é definido e criado antes de todos os dados podem ser armazenados. Mesmo assim, as tabelas podem ser alteradas e novas famílias de colunas podem ser adicionados após o banco de dados está instalado e funcionando. Essa extensibilidade é extremamente útil quando se lida com dados grandes, porque você não sabe sempre sobre a variedade de seus fluxos de dados.

menu