Hadoop For Dummies

o shell Hadoop

é uma família de comandos que podem ser executados a partir de linha de comando do seu sistema operacional. O escudo tem dois conjuntos de comandos: um para manipulação de arquivos (semelhante em propósito e sintaxe para os comandos Linux que muitos de nós conhecemos e amamos) e outra para a administração Hadoop. A lista a seguir resume o primeiro conjunto de comandos para você, indicando que o comando faz, bem como o uso e exemplos, se for o caso.

  • gato: caminhos de origem cópias para stdout.

    Uso: dfs HDFS -cat URI [URI # 133-]

    Exemplo:

  • hdfs dfs -cat hdfs: /// file1

  • dfs HDFS-cat arquivo: /// file2 / user / hadoop / file3

  • chgrp: Altera a associação grupo de arquivos. Com -R, faz com que a mudança de forma recursiva por meio da estrutura de diretórios. O usuário deve ser o proprietário do arquivo ou o superusuário.

    Uso: hdfs dfs -chgrp [-R] GROUP URI [URI # 133-]

  • chmod: Altera as permissões de arquivos. Com -R, faz com que a mudança de forma recursiva por meio da estrutura de diretórios. O usuário deve ser o proprietário do arquivo ou o superusuário

    Uso: hdfs dfs -chmod [-R] URI [URI # 133-]

    Exemplo:hdfs dfs -chmod 777test / data1.txt

  • chown: Altera o proprietário de arquivos. Com -R, faz com que a mudança de forma recursiva por meio da estrutura de diretórios. O usuário deve ser o superusuário.

    Uso: hdfs dfs -chown [-R] [OWNER] [: [GROUP]] URI [URI]

    Exemplo:hdfs dfs -chown -R hduser2 / opt / hadoop / logs

  • copyFromLocal: Funciona de forma semelhante ao colocar comando, exceto que a fonte é restrita a uma referência de arquivo local.

    Uso: hdfs dfs -copyFromLocal URI

    Exemplo: hdfs dfs entrada / docs / hdfs data2.txt -copyFromLocal: //localhost/user/rosemary/data2.txt

  • copyToLocal: Funciona de forma semelhante ao obter comando, exceto que o destino está restrito a uma referência de arquivo local.

    Uso: hdfs dfs -copyToLocal [-ignorecrc] [-crc] URI

    Exemplo: hdfs dfs -copyToLocal data2.txt data2.copy.txt

  • contagem: Conta o número de diretórios, arquivos e bytes sob os caminhos que correspondem ao padrão de arquivo especificado.

    Uso: hdfs dfs -count [q]

    Exemplo: hdfs dfs -count hdfs: //nn1.example.com/file1 hdfs: //nn2.example.com/file2

  • cp: Copia um ou mais arquivos de uma fonte especificada para um destino específico. Se você especificar múltiplas fontes, o destino especificado deve ser um diretório.

    Uso: hdfs dfs -cp URI [URI # 133-]

    Exemplo: hdfs dfs-cp / user / hadoop / file1 / user / hadoop / file2 / user / hadoop / dir

  • du: Exibe o tamanho do arquivo especificado, ou os tamanhos de ficheiros e directórios que estão contidos no diretório especificado. Se você especificar o -s opção, exibe um resumo agregado de tamanhos de arquivo em vez de tamanhos de arquivos individuais. Se você especificar o -h opção, formata os tamanhos de arquivo de uma forma "legível".

    Uso: hdfs dfs -du [-s] [-h] URI [URI # 133-]

    Exemplo: hdfs dfs -du / user / hadoop / dir1 / user / hadoop / file1

  • dus: Exibe um resumo de equivalente de arquivo tamanhos-a hdfs dfs -du -s.

    Uso: hdfs dfs -dus

  • expurgar: Esvazia o lixo. Quando você apaga um arquivo, ele não é removido imediatamente do HDFS, mas é renomeado para um arquivo no /lixo diretório. Enquanto o arquivo permanece lá, você pode recuperá-lo se você mudar de ideia, embora apenas a cópia mais recente do arquivo excluído pode ser restaurado.

    Uso: hdfs dfs -expunge

  • obter: Copia os arquivos para o sistema de arquivos local. Arquivos que falham a verificação de redundância cíclica (CRC) ainda pode ser copiado se você especificar o -ignorecrcopção. O CRC é uma técnica comum para a detecção de erros de transmissão de dados. arquivos de checksum CRC têm a .CRC extensão e são usados ​​para verificar a integridade dos dados de outro ficheiro. Esses arquivos são copiados se você especificar o -CRC opção.

    Uso: hdfs dfs -get [-ignorecrc] [-crc]

    Exemplo: hdfs dfs -get / user / hadoop / LocalFile file3

  • getmerge: Concatena os arquivos em srce escreve o resultado para o arquivo de destino local especificado. Para adicionar um caractere de nova linha no final de cada arquivo, especifique o addnl opção.

    Uso: hdfs dfs -getmerge [Addnl]

    Exemplo:hdfs dfs -getmerge / user / hadoop / mydir / ~ / addnl result_file

  • ls: Retorna estatísticas para os arquivos especificados ou diretórios.

    Uso: hdfs dfs -ls

    Exemplo: hdfs dfs -ls / user / hadoop / file1

  • LSR: Serve como a versão recursiva de ls- semelhante ao comando Unix ls -R.

    Uso: hdfs dfs -lsr

    Exemplo: hdfs dfs -lsr / user / hadoop

  • mkdir: Cria diretórios em um ou mais modelos especificados caminhos. O seu comportamento é semelhante ao Unix mkdir -p comando, que cria todos os diretórios que levam até o diretório especificado se eles já não existem.

    Uso: hdfs dfs -mkdir

    Exemplo: hdfs dfs -mkdir / user / hadoop / dir5 / temp

  • moveFromLocal: Funciona de forma semelhante ao colocar comando, exceto que a fonte seja excluído após ter sido copiado.

    Uso: hdfs dfs -moveFromLocal

    Exemplo: hdfs dfs -moveFromLocal localfile1 localfile2 / user / hadoop / hadoopdir

  • mv: Move um ou mais arquivos de uma fonte especificada para um destino específico. Se você especificar múltiplas fontes, o destino especificado deve ser um diretório. Movendo arquivos nos sistemas de arquivos não é permitido.

    Uso: hdfs dfs -mv URI [URI # 133-]

    Exemplo: hdfs dfs -mv / user / hadoop / file1 / user / hadoop / file2

  • colocar: copia os arquivos do sistema de arquivos local para o sistema de arquivo de destino. Este comando também pode ler a entrada de stdin e escrever para o sistema de arquivo de destino.

    Uso: hdfs dfs -put ...

    Exemplo: hdfs dfs -put localfile1 localfile2 / user / hadoop / hadoopdir- hdfs dfs -put - / user / hadoop / hadoopdir (lê a entrada de stdin)

  • rm: Exclui um ou mais arquivos especificados. Este comando não exclui diretórios ou arquivos vazios. Para ignorar o lixo (se estiver ativado) e excluir os arquivos especificados imediatamente, especificar o -skipTrash opção.

    Uso: hdfs dfs -rm [-skipTrash] URI [URI # 133-]

    Exemplo: hdfs dfs -rm hdfs: //nn.example.com/file9

  • RMR: Serve como a versão recursiva de -rm.

    Uso: hdfs dfs -rmr [-skipTrash] URI [URI # 133-]

    Exemplo: hdfs dfs -rmr / user / hadoop / dir

  • setrep: Altera o fator de replicação para um arquivo ou diretório especificado. Com -R, faz com que a mudança de forma recursiva por meio da estrutura de diretórios.

    Uso: hdfs dfs -setrep [-R]

    Exemplo: hdfs dfs -setrep 3 -R / user / hadoop / dir1

  • estatísticas: Exibe informações sobre o caminho especificado.

    Uso: dfs HDFS -stat URI [URI # 133-]

    Exemplo: hdfs dfs -stat / user / hadoop / dir1

  • rabo: Exibe a última kilobyte de um arquivo especificado para stdout. A sintaxe apoia o Unix -f opção, o que permite que o ficheiro especificado para ser monitorizada. À medida que novas linhas são adicionadas ao arquivo por outro processo, tafligir atualiza a exibição.

    Uso: hdfs dfs -tail [f] URI

    Exemplo: hdfs dfs -tail / user / hadoop / dir1

  • teste: Retorna atributos do arquivo ou diretório especificado. Especifica -e para determinar se o arquivo ou diretório exists- -z para determinar se o arquivo ou diretório está vazio- e -d para determinar se o URI é um diretório.

    Uso: hdfs dfs -test - [EZD] URI

    Exemplo: hdfs dfs -test / user / hadoop / dir1

  • texto: Gera um arquivo de origem especificado no formato de texto. formatos de arquivo de entrada válidos são fecho eclair e TextRecordInputStream.

    Uso: hdfs dfs -text

    Exemplo: hdfs dfs -text /user/hadoop/file8.zip

  • touchz: Cria um novo arquivo, vazia de tamanho 0 no caminho especificado.

    Uso: hdfs dfs -touchz

    Exemplo: hdfs dfs -touchz / user / hadoop / file12

  • Comandos de administração do Hadoop

    Qualquer administrador de Hadoop vale o seu sal deve dominar um conjunto abrangente de comandos para administração do cluster. A lista a seguir resume os comandos mais importantes, o que indica que o comando faz, bem como sintaxe e exemplos. Conhecê-los, e você vai avançar um longo caminho ao longo do caminho para a sabedoria Hadoop.

    • equilibrista: Executa o utilitário de balanceamento de cluster. O valor limite especificado, o que representa uma percentagem da capacidade do disco, é usado para substituir o valor limite padrão (10 por cento). Para parar o processo de reequilíbrio, pressione Ctrl + C.

      Sintaxe:hadoop balanceador [-threshold ]

      Exemplo: hadoop balanceador -threshold 20

    • daemonlog: Obtém ou define o nível de registro para cada daemon (também conhecido como um serviço). liga-se a http: // host: port / logLevel log = nome e impressões ou define o nível de log do daemon que está sendo executado em host: porta. daemons do Hadoop gerar arquivos de log que ajudam a determinar o que está acontecendo no sistema, e você pode usar o daemonlog comando para alterar temporariamente o nível de log de um componente Hadoop quando você está depurando o sistema. A mudança torna-se eficaz quando o daemon é reiniciado.

      Sintaxe: hadoop daemonlog -getlevel - hadoop daemonlog -setlevel

      Exemplo: hadoop daemonlog -getlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker- hadoop daemonlog -setlevel 10.250.1.15:50030 org.apache.hadoop.mapred.JobTracker DEBUG

    • DataNode: Executa o serviço DataNode HDFS, que coordena o armazenamento em cada nó escravo. Se você especificar -rollback, o DataNode é revertida para a versão anterior. Pare o DataNode e distribuir a versão anterior Hadoop antes de usar esta opção.

      Sintaxe: hadoop DataNode [-rollback]

      Exemplo: hadoop -rollback DataNode

    • dfsadmin: Executa um número de Hadoop Distributed File System (HDFS) operações administrativas. Use o -Socorro opção para ver uma lista de todas as opções suportadas. As opções genéricos são um conjunto comum de opções suportadas por vários comandos.

      Sintaxe: Hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemode entrar | deixar | obter | esperar] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress estatuto | detalhes | vigor] [filename -metasave] [-setQuota ...] [-clrQuota ...] [-restoreFailedStorage Verdadeiro | falso | cheque] [-help [cmd]]

    • mradmin: Executa uma série de operações administrativas MapReduce. Use o -Socorro opção para ver uma lista de todas as opções suportadas. Mais uma vez, as opções genéricos são um conjunto comum de opções que são suportadas por vários comandos. Se você especificar -refreshServiceAcl, recarrega o arquivo de políticas de autorização de nível de serviço (JobTracker recarrega o arquivo de políticas de autorização) - -refreshQueues recarrega as listas de controle de acesso fila (ACLs) e estadual (JobTracker recarrega a mapred-queues.xml Arquivo)- -refreshNodes refresca a anfitriões informações no JobTracker- -refreshUserToGroupsMappings refresca user-to-grupos mappings- -refreshSuperUserGroupsConfiguration refreshes grupos de proxy de superusuário mappings- e -ajudar [cmd] exibe a ajuda para o comando dado, ou para todos os comandos se nenhum for especificado.

      Sintaxe: hadoop mradmin [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]

      Exemplo: hadoop mradmin -help -refreshNodes

    • JobTracker: Executa o nó MapReduce JobTracker, que coordena o sistema de processamento de dados para Hadoop. Se você especificar -dumpConfiguration, a configuração que é usado pelo JobTracker ea configuração da fila no formato JSON são escritos na saída padrão.

      Sintaxe: hadoop JobTracker [-dumpConfiguration]

      Exemplo: hadoop -dumpConfiguration JobTracker

    • namenode: Executa o NameNode, que coordena o armazenamento para todo o cluster Hadoop. Se você especificar -formato, NameNode é iniciado, formatado e, em seguida stopped- com -atualização, NameNode começa com a opção de atualização após uma nova versão Hadoop é distributed- com -rollback, NameNode é revertida para a versão anterior (lembre-se de parar o cluster e distribuir a versão anterior Hadoop antes de usar esta opção) - com -finalizar, o estado anterior do sistema de arquivo é removido, a atualização mais recente se torna permanente, a reversão não está mais disponível, eo NameNode é stopped- finalmente, com -importCheckpoint, uma imagem é carregado do diretório de ponto de verificação (conforme especificado pelo fs.checkpoint.dir propriedade) e salvo no diretório atual.

      Sintaxe: hadoop namenode [-format] | [-upgrade] | [-rollback] | [-finalize] | [-importCheckpoint]

      Exemplo: hadoop -finalize namenode

    • namenode secundário: Executa o NameNode secundário. Se você especificar -checkpoint, um ponto de verificação na NameNode secundário é realizado se o tamanho do EditLog (um registo de transacções que grava cada mudança que ocorre para os metadados sistema de ficheiros) é maior do que ou igual a fs.checkpoint.size- especificamos -força e um ponto de verificação é realizada independentemente do EditLog SIZE- especificar -geteditsize e o tamanho EditLog é impresso.

      Sintaxe: hadoop secondarynamenode [-checkpoint [força]] | [-geteditsize]

      Exemplo: hadoop secondarynamenode -geteditsize

    • TaskTracker: Executa um nó MapReduce TaskTracker.

      Sintaxe: TaskTracker hadoop

      Exemplo: TaskTracker hadoop

    O Hadoop dfsadmin Opções de comando

    o dfsadmin ferramentas são um conjunto específico de ferramentas projetadas para ajudá-lo a acabar com a informação sobre o seu sistema de arquivos distribuído Hadoop (HDFS). Como um bônus adicional, você pode usá-los para executar algumas operações de administração em HDFS também.

    OpçãoO que faz
    -relatórioRelata informações e estatísticas de base do sistema de arquivos.
    -safemode entrar | deixar | obter | esperargerencia seguro modo, um estado NameNode em que muda nome espaço tothe não são aceites e blocos podem ser neitherreplicated nem excluído. O NameNode é cofre no modo de duringstart-up para que ele não iniciar prematuramente replicatingblocks mesmo que já existem suficientes réplicas em thecluster.
    -refreshNodesForça o NameNode reler sua configuração, incluindo odfs.hosts.exclude Arquivo. Os nós NameNodedecommissions após seus blocos foram replicados ontomachines que permanecerá ativo.
    -finalizeUpgradeCompleta o processo de atualização HDFS. DataNodes eo NameNodedelete diretórios de trabalho a partir da versão anterior.
    -estatuto upgradeProgress | detalhes | vigorSolicita ao padrão ou estado actual detalhada de atualização thedistributed, ou obriga a atualização para continuar.
    -filename metasaveSalva estruturas de dados primários do NameNode para nome do arquivo em um diretório that'sspecified pela hadoop.log.dir property.File nome do arquivo, que isoverwritten se ele já existe, contém uma linha para cada ofthese itens: a) DataNodes que estão trocando batimentos cardíacos com theNameNode- b) blocos que estão esperando para ser replicated- c) blocksthat estão sendo replicated- e d) os blocos que estão à espera de bedeleted.
    -setquota ... Define um limite máximo para o número de nomes na directorytree. Você pode definir esse limite (um inteiro longo) para um ou moredirectories simultaneamente.
    -clrQuota... Limpa o limite máximo para o número de nomes na directorytree. Você pode limpar esse limite para um ou mais directoriessimultaneously.
    -restoreFailedStorage verdade | false | chequeLiga ou desliga as tentativas automáticas para restaurar réplicas failedstorage. Se um local de armazenamento não se torna availableagain, o sistema tenta restaurar edições ea fsimage durante um posto de controle. A opção de verificação retorna a configuração atual.
    -ajudar [cmd]Exibe informações de ajuda para o comando dado ou para allcommands se nenhum for especificado.

    menu