Configuração do ambiente Hadoop com Apache Bigtop
Se você é confortável trabalhar com VMs e Linux, sinta-se livre para instalar Bigtop em uma VM diferente do que é recomendado. Se você for realmente corajoso e ter o hardware, vá em frente e tente instalar Bigtop em um cluster de máquinas no modo totalmente distribuído!
Menu
Passo 1: Transferir uma VM
Hadoop é executado em todas as distribuições Linux populares, então você precisa de uma VM Linux. Há um livremente disponível (e legal!) imagem CentOS 6 disponível.
Você vai precisar de um sistema operacional de 64 bits em seu laptop, a fim de executar este VM. Hadoop precisa de um ambiente de 64 bits.
Depois de ter baixado o VM, extraí-lo a partir do arquivo ZIP baixado para o diretório de destino. Do garantir que você tem em torno de 50 GB de espaço disponível como Hadoop e seus dados de amostra vai precisar dele.
Se você ainda não tem um jogador VM, você pode fazer o download gratuitamente.
Depois de ter o seu leitor VM configurado, abra o jogador, vá em File-Open, em seguida, vá para o diretório onde você extraiu o Linux VM. Procure um arquivo chamado e selecioná-lo. Você verá informações sobre quantos processadores ea quantidade de memória que irá utilizar. Descobrir quanta memória o computador tiver, e alocar metade do que para o VM de usar. Hadoop precisa de muita memória.
Assim que estiver pronto, clique no botão Play, e sua instância Linux será iniciado. Você vai ver muitas mensagens de voar como o Linux está sendo inicializado e você chegará a uma tela de login. O nome de usuário já está definido para # 147-Tom. # 148- Especifique a senha como # 147-TomTom # 148- e log in.
Passo 2: Transferir Bigtop
De dentro do seu Linux VM, direito, clique na tela e selecione Abrir no Terminal a partir do menu contextual que aparece. Isso abre um terminal Linux, onde você pode executar comandos. Clique dentro do terminal para que você pode ver o cursor piscando e digite o seguinte comando: su -
Você será solicitado para sua senha, então digite # 147-TomTom # 148- como você fez antes. Este comando muda o usuário root, que é a conta principal de um computador Linux - você vai precisar disso, a fim de instalar o Hadoop.
Com o seu acesso root (não deixe o poder chegar a sua cabeça), execute o seguinte comando:
wget -O /etc/yum.repos.d/bigtop.repo
https://apache.org/dist/bigtop/bigtop-
0.7.0 / repos / centos6 / bigtop.repo
O comando é essencialmente uma solicitação da web, que solicita um ficheiro específico, na URL que você pode ver e escreve-o para um caminho específico - neste caso, isso é /.
Passo 3: Instalar Bigtop
Os gênios por trás de Linux têm feito a vida muito fácil para as pessoas que precisam instalar pacotes de software grandes como Hadoop. O que você baixou na última etapa não foi todo o pacote Bigtop e todas as suas dependências. Foi apenas um arquivo de repositório (Com a extensão), que conta um programa de instalação que pacotes de software são necessários para a instalação Bigtop.
Como qualquer produto de software grande, Hadoop tem muitos pré-requisitos, mas você não precisa se preocupar. Um arquivo bem concebido irá apontar para quaisquer dependências, eo instalador é suficientemente inteligente para ver se eles estão faltando no seu computador e faça o download e instalá-los.
O instalador que você está usando aqui é chamado yum, que você começa a ver em ação agora:
yum install hadoop * mahout * Oozie * hbase * hive * matiz * porco * tratador *
Observe que você está escolhendo e escolhendo os componentes do Hadoop para instalar. Há uma série de outros componentes disponíveis no Bigtop, mas estes são os únicos que você vai usar aqui. Uma vez que a VM é uma nova instalação Linux, você vai precisar de muitas dependências, assim você terá que esperar um pouco.
O instalador yum é bastante detalhado, assim você pode assistir exatamente o que está sendo baixados e instalados para passar o tempo. Quando o processo de instalação é feito, você deve ver uma mensagem que diz # 147-Complete # 148!;
Passo 4: Começando Hadoop
Antes de iniciar a execução de aplicativos em Hadoop, existem algumas configuração e instalação coisas básicas que você precisa fazer. Aqui eles estão em ordem:
Faça o download e instalar o Java:
yum install java-1.7.0-openjdk-devel.x86_64
Formate a NameNode:
sudo /etc/init.d/hadoop-hdfs-namenode o init
Inicie os serviços do Hadoop para o cluster pseudodistributed:
for i in Hadoop-hdfs-namenode Hadoop-hdfs-DataNode - fazer o serviço sudo $ i começar - done
Criar uma estrutura de sub-directório no HDFS:
sudo /usr/lib/hadoop/libexec/init-hdfs.sh
Inicie os daemons FIO:
serviço sudo hadoop-fios ResourceManager início do serviço startsudo hadoop-fios NodeManager
E com isso, você está feito. Parabéns! Você instalou uma implantação Hadoop trabalhar!
Passo 5: Fazendo o download do conjunto de dados de amostra
Para baixar o conjunto de dados de exemplo, abra o navegador Firefox dentro da VM, e ir para o A página dataexpo.
Você não vai precisar de todo o conjunto de dados, assim que começar com um único ano, 1987. Quando você vai baixar, selecione a opção Abrir Archive Manager com.
Após o arquivo foi baixado, extraia o arquivo em seu diretório pessoal, onde você facilmente ser capaz de encontrá-lo. Clique no botão Extract, e, em seguida, selecione o diretório Desktop.
Passo 6: copiar os dados da amostra definida no HDFS
Lembre-se que seus programas Hadoop só pode trabalhar com dados depois que ele é armazenado no HDFS. Então, o que você vai fazer agora é copiar o arquivo de dados de voo para 1987 no HDFS. Digite o seguinte comando:
hdfs dfs -copyFromLocal 1987.csv / user / root