Porque você deve usar o Hadoop para Big Data?
inovadores de motores de busca como Yahoo! e Google foram confrontados com um problema de dados pântano. Eles precisavam encontrar uma maneira de fazer sentido das enormes quantidades de dados que seus motores estavam coletando. Estas empresas necessárias para ambos entendem as informações que eles estavam se reunindo e como eles poderiam rentabilizar esses dados para apoiar o seu modelo de negócio.
Hadoop foi desenvolvido porque representava a forma mais pragmática para permitir às empresas gerenciar grandes volumes de dados facilmente. Hadoop permitiu grandes problemas a ser dividido em elementos menores, de modo que a análise poderia ser feito rapidamente e de forma rentável.
Ao quebrar o problema de dados grande em pedaços pequenos que poderiam ser processadas em paralelo, você pode processar as informações e reagrupar os pedaços pequenos de apresentar resultados.
Hadoop foi originalmente construído por um engenheiro Yahoo! chamado Doug Cutting e agora é um projeto de código aberto gerido pela Apache Software Foundation. Está disponível sob a licença Apache v2.0.
Hadoop é um alicerce fundamental no nosso desejo de capturar e processar dados grandes. Hadoop é projetado para paralelizar o processamento de dados entre os nós de computação para acelerar cálculos e esconder a latência. Na sua essência, o Hadoop tem dois componentes principais:
Hadoop Distributed File System: A confiáveis, de alta largura de banda, baixo custo, cluster de armazenamento de dados que facilita o gerenciamento de arquivos relacionados entre máquinas.
motor de MapReduce: A implementação /-processamento de dados distribuído de alto desempenho paralelo da MapReduce algoritmo.
Hadoop é projetado para processar grandes quantidades de dados estruturados e não estruturados (terabytes para petabytes) e é implementado em racks de servidores de commodities como um cluster Hadoop. Os servidores podem ser adicionados ou removidos do cluster de forma dinâmica, porque Hadoop é projetado para ser # 147-auto-cura. # 148- Em outras palavras, o Hadoop é capaz de detectar alterações, incluindo falhas e ajustar a essas mudanças e continuar a funcionar sem interrupção.