Protegendo seus dados no Hadoop

Como Hadoop entra o mainstream TI e começa a ficar usado de forma decisiva em ambientes de produção, as mesmas preocupações de segurança que se aplicam a sistemas de TI, tais como bancos de dados será aplicável a Hadoop também. Em seus primeiros anos, o Hadoop foi famosamente não

projetados com a segurança em mente, mas a adição de capacidades de segurança de força da empresa é uma parte importante da vinda de idade do Hadoop. É uma parte necessária, bem como: Para muitas aplicações (como finanças), se você não pode fornecer garantias de segurança, você pode estar violando a lei.

Este artigo centra-se em três aspectos principais de proteção de informações - aspectos que se aplicam ao Hadoop como fariam a qualquer outro sistema de TI:

  • gestão de perímetro

  • Controle de acesso

  • Encryption

gestão de perímetro

O primeiro princípio em segurança de TI é controlar firmemente as fronteiras entre o sistema e o mundo exterior. Porque Hadoop é um sistema distribuído abrangendo vários computadores, este é em grande parte um problema de rede. Como uma plataforma de computação distribuída, um cluster Hadoop tem muitos computadores individuais, com cada computador com um número de portas e serviços abertos.

Como você poderia esperar, este é um pesadelo de segurança, que a maioria dos administradores lidar, mantendo o cluster em uma rede isolada. O desafio vem quando os usuários precisam executar aplicativos contra si Hadoop. Considere a implantação de nós de borda, com a rede compartilhada, para atuar como gateways entre Hadoop eo mundo exterior. Esta estratégia apresenta desafios de segurança, no entanto. Para enfrentar este desafio, a equipe Hortonworks iniciou o desenvolvimento do projeto Apache Knox, que permite o acesso seguro aos serviços do cluster Hadoop.

Controle de acesso

Uma grande parte da discussão de segurança é controlar o acesso. Onde o controle de perímetro é de cerca de minimizar os pontos de acesso, controle de acesso é garantir que qualquer acesso que acontece é segura.

Autenticação

Na linha de frente de controle de acesso é autenticação, que, em suma, é a validação que seus usuários são quem eles dizem que são. A comunidade open source colocou uma quantidade enorme de trabalho para esta área, permitindo que os vários componentes do ecossistema Apache Hadoop para trabalhar com Kerberos, o protocolo de autenticação de rede de computadores bem-visto. Na Primavera de 2014, ambos os lançamentos Hadoop 1 e Hadoop 2 são totalmente habilitado para Kerberos. (Nem todos os departamento de TI usa o Kerberos, mas outros protocolos, como o LDAP, foram aplicadas ao Hadoop por alguns fornecedores de distribuição do Hadoop em suas ofertas proprietárias.)

Autorização

Depois que seus serviços de autenticação validaram a identidade de um usuário, a próxima questão é determinar quais informações e comportamentos deste usuário tem o direito de - autorização, em outras palavras.

Atualmente, a autorização no Hadoop é bastante primitivo, e está restrito ao leitura POSIX-style, escrever e executar privilégios ao nível do sistema de arquivos. No entanto, os esforços significativos estão em andamento para definir classes de usuários (por exemplo, funções de usuário) ea Administração de listas de controle de acesso (ACLs).

O projeto Hive, por exemplo, terá em breve comandos GRANT / REVOKE para permitir que os administradores definam quais usuários podem acessar tabelas ou visões específicas. Para este fim, a equipe Cloudera tem liderado o projeto Apache Knox para gerir a definição de regras de usuários e seus privilégios para acessar dados em Impala e Hive.

Auditoria

A peça final do quebra-cabeça de controle de acesso é o acompanhamento de eventos de acesso a dados, o que é um requisito fundamental para uma série de normas regulamentares de gerenciamento de informações, como o Health Insurance Portability e Accountability Act (HIPAA) eo Payment Card Industry Data Security Standard (PCI DSS). Hadoop faz um bom trabalho de armazenar informações de auditoria para registrar eventos de acesso a dados, portanto, um requisito fundamental já está em vigor. Para proteger e gerenciar esses dados de auditoria, ferramentas de terceiros estão disponíveis, como o Navigator da Cloudera ou IBM Guardium.

Encryption

Depois de garantir que as defesas do seu dados estão no lugar, gerindo o perímetro e que regula o acesso, você pode fazer ainda mais no caso de uma violação acontece. A criptografia pode ser a última linha de defesa. Para dados em disco, trabalho ativo está ocorrendo na comunidade Hadoop para incorporar criptografia como uma opção para todos os dados armazenados no HDFS. distribuição da Intel tem um salto no início deste criptografia porque tem habilitado para dados no HDFS, tirando partido das instruções de criptografia especializados em CPUs Intel usados ​​em nós escravos Hadoop. Ferramentas de terceiros também estão disponíveis para criptografar os dados no HDFS.

Porque Hadoop é um sistema distribuído depender fortemente de comunicação de rede, criptografia de dados como ele se move através da rede é uma parte crítica dessa história. Back in Hadoop 1, o sistema (RPC) Hadoop Remote Procedure Call foi aprimorado para oferecer suporte a criptografia. Este abrange a comunicação envolvida no processamento de dados, como o MapReduce, mas para o movimento de dados e as interfaces web, o Hadoop também usa TCP / IP e HTTP. Ambos também foram garantidos: servidor HTTP do Hadoop agora suporta HTTPS, e as operações de transferência de HDFS pode ser configurado para ser criptografados.

menu