RegionServers em HBase
RegionServers são os processos de software (geralmente chamados daemons) você ativa para armazenar e recuperar dados HBase (Hadoop Banco de Dados). Em ambientes de produção, cada RegionServer é implantado em seu próprio nó de computação dedicado. Quando você começar a usar HBase, você criar uma tabela e, em seguida, começar a armazenar e recuperar seus dados.
No entanto, em algum momento - e talvez muito rapidamente em casos grandes para utilização dos dados - a tabela cresce além de um limite configurável. Neste ponto, o sistema divide o HBase automaticamente a mesa e distribui a carga para outro RegionServer.
Neste processo, muitas vezes referida como auto-sharding, HBase dimensiona automaticamente quando você adicionar dados para o sistema - um enorme benefício em comparação com a maioria dos sistemas de gerenciamento de banco de dados, que exigem intervenção manual para dimensionar o sistema global para além de um único servidor. Com HBase, contanto que você tem no rack outro servidor de reposição que está configurado, descamação é automático!
Por que definir um limite em tabelas e, em seguida, dividi-los? Afinal, HDFS é o mecanismo de armazenamento subjacente, de modo que todos os discos disponíveis no cluster HDFS estão disponíveis para o armazenamento de suas tabelas. (Sem contar o fator de replicação, é claro.) Se você tem um cluster inteiro à sua disposição, por que limitar-se a um RegionServer para gerenciar suas tabelas?
Simples. Você pode ter qualquer número de tabelas grandes ou pequenos e você vai querer HBase para alavancar todas as RegionServers disponíveis ao gerenciar seus dados. Você quer tirar o máximo proveito de desempenho computacional do cluster. Além disso, com muitos clientes acessando o sistema HBase, você vai querer usar muitas RegionServers para atender a demanda.
HBase aborda todas estas preocupações para você e dimensiona automaticamente em termos de capacidade de armazenamento e poder computacional.