Falhas Slave Nós e Discos em HDFS
Como a morte e os impostos, falhas de disco (e dado tempo suficiente, até mesmo nó ou rack de falhas), são inevitáveis em Hadoop Distributed File System (HDFS). No exemplo mostrado, mesmo se uma cremalheira falhar, o aglomerado pode continuar o seu funcionamento. Desempenho sofreria porque você perdeu metade dos seus recursos de processamento, mas o sistema ainda está on-line e todos os dados ainda está disponível.
Em um cenário onde uma unidade de disco ou um nó escravo falhar, o servidor central de metadados para HDFS (chamado de NameNode) finalmente descobre que os blocos de arquivos armazenados no recurso falhou não estão mais disponíveis. Por exemplo, se Slave Node 3 falhar, isso significaria que Blocos A, C, e D são underreplicated.
Em outras palavras, muito poucas cópias desses blocos estão disponíveis no HDFS. Quando HDFS detecta que um bloco é underreplicated, que ordena uma nova cópia.
Para continuar o exemplo, dizer que Slave Node 3 voltar a ficar online depois de algumas horas. Enquanto isso, HDFS assegurou que existem três cópias de todos os blocos de arquivo. Então, agora, Blocos A, C, e D têm quatro cópias cada e são overreplicated. Tal como acontece com blocos underreplicated, o servidor central de metadados HDFS vai descobrir sobre isso também, e vai pedir uma cópia de cada arquivo a ser excluído.
Um bom resultado da disponibilidade de dados é que quando ocorrem falhas de disco, não há necessidade de substituir imediatamente falhou discos rígidos. Isto pode mais eficazmente ser feito a intervalos regulares.