Modos locais e distribuídas de executar scripts Pig em Hadoop

Antes que você possa executar o seu primeiro roteiro Porco no Hadoop, você precisa ter uma alça sobre como programas de porco pode ser empacotado com o servidor Pig.

Pig tem dois modos de execução de scripts:

  • Modo local: Todos os scripts são executados em uma única máquina sem a necessidade de Hadoop MapReduce e HDFS. Isto pode ser útil para desenvolver e testar a lógica Pig. Se você estiver usando um pequeno conjunto de dados para o desenvolvedor ou testar seu código, em seguida, o modo local poderia ser mais rápido do que ir através da infra-estrutura MapReduce.

    modo local não requer Hadoop. Quando executado no modo local, o programa Pig é executado no contexto de uma Máquina Virtual Java local, e acesso a dados é através do sistema de uma única máquina de arquivos local. O modo local é na verdade uma simulação local do MapReduce na classe LocalJobRunner do Hadoop.

  • modo de MapReduce (também conhecido como modo Hadoop): Pig é executado no cluster Hadoop. Neste caso, o Script Pig é convertido em uma série de trabalhos de MapReduce, que depois são executados no cluster do Hadoop.

    image0.jpg

Se você tem um terabyte de dados que você deseja executar operações em e você quer desenvolver interativamente um programa, você pode em breve encontrar coisas abrandar consideravelmente, e você pode começar a crescer o seu armazenamento. modo local permite que você trabalhe com um subconjunto de dados de uma forma mais interativa para que você possa descobrir a lógica (e trabalhar os bugs) do seu programa de porco.

Depois de ter coisas configurar como deseja que eles e suas operações estão funcionando sem problemas, você pode, em seguida, executar o script contra os dados completos definidos usando o modo MapReduce.

menu