10 razões para adotar Hadoop

Hadoop é uma plataforma poderosa e flexível para análise de dados em grande escala. Esta declaração só é uma boa razão para considerar o uso de Hadoop para seus projetos de análise. Para ajudar ainda mais inclinar a balança, a seguir estão dez razões para implantar Hadoop como parte de sua solução de dados grande.

Hadoop é relativamente barato

O custo por terabyte para implementar um cluster Hadoop é mais barato do que o custo por terabyte para configurar um sistema de backup em fita. Concedido, um sistema Hadoop custa mais de operar, porque as unidades de disco que contém os dados estão todos online e alimentado, ao contrário de unidades de fita. Mas essa métrica interessante ainda mostra o valor potencial enorme de um investimento em Hadoop.

A principal razão Hadoop é barato é sua dependência de hardware commodity. As soluções tradicionais de gerenciamento de dados corporativos dependem de recursos caros para garantir alta disponibilidade e desempenho rápido.

Hadoop tem uma comunidade ativa de código aberto

Sempre que uma organização investe em um pacote de software, uma consideração importante é a relevância de longo prazo do software que comprou. Nenhuma empresa quer comprar licenças de software e construir habilidades específicas em torno de tecnologias que estarão obsoletos ou irrelevantes nos próximos meses e anos.

A este respeito, você não precisa se preocupar com o Hadoop. O projeto Apache Hadoop está no caminho da adoção de longo prazo e relevância. Seus principais projetos têm dezenas de committers e centenas de desenvolvedores contribuindo código. Embora algumas dessas pessoas são acadêmicos ou amadores, a maioria deles são pagos por empresas de software corporativo para ajudar a crescer a plataforma Hadoop.

Hadoop está sendo amplamente adotado em todos os setores

Tal como acontece com a adoção da tecnologia de banco de dados relacional a partir de 1980 e em diante, as soluções Hadoop estão surgindo em todos os setores. A maioria das empresas com desafios de gestão de informação de grande escala estão a explorar seriamente Hadoop. amplo consenso a partir de histórias de mídia e relatórios de analistas indicam agora que quase todos os Fortune 500 empresa embarcou em um projeto Hadoop.

Hadoop pode facilmente escalar para fora como seus dados crescem

O aumento dos volumes de dados são um desafio de dados grande generalizado enfrentado agora pelas organizações. Em ambientes altamente competitivos, onde analytics está se tornando cada vez mais o fator decisivo na determinação de vencedores e perdedores, sendo capaz de analisar esses volumes crescentes de dados está se tornando uma prioridade alta.

Mesmo agora, a maioria das ferramentas de processamento de dados tradicionais, como bancos de dados e pacotes estatísticos, requerem hardware de maior escala (mais memória, disco e núcleos de CPU) para lidar com os volumes de dados cada vez maiores. Esta abordagem scale-up é limitante e de custo-eficácia, dada a necessidade de componentes caros.

Em contraste com o modelo de aumento de escala, onde maior capacidade de hardware mais rápido e é adicionada a um único servidor, Hadoop destina-se a dimensionar com facilidade, adicionando nós de dados. Estes nós de dados, o que representa um aumento de capacidade de armazenamento de cluster e poder de processamento, pode facilmente ser adicionado em tempo real para um cluster ativo.

ferramentas tradicionais estão integrando com Hadoop

Com o aumento da adoção, as empresas estão vindo a depender de Hadoop e estão usando-o para armazenar e analisar dados críticos. Com esta tendência vem um apetite para os mesmos tipos de ferramentas de gerenciamento de dados que as pessoas estão acostumadas a ter para as suas fontes de dados tradicionais, tais como um banco de dados relacional. Aqui estão algumas das mais importantes categorias de aplicativos onde você pode ver a integração com Hadoop:

  • ferramentas de análise de negócios

  • pacotes de análise estatística

  • ferramentas de integração de dados

Hadoop pode armazenar dados em qualquer formato

Uma característica do Hadoop reflete um princípio fundamental NoSQL: dados da loja em primeiro lugar, e aplicar quaisquer esquemas depois de ser consultado. Um grande benefício que resulta para Hadoop de agir em conformidade com este princípio é que você pode literalmente armazenar qualquer tipo de dados em Hadoop: completamente desestruturado, formatos binários, arquivos de log semi-estruturadas, ou dados relacionais.

Mas junto com essa flexibilidade vem uma maldição: Depois de armazenar dados, você acabará por querer analisá-lo - e análise de dados desorganizados pode ser difícil e demorado. A boa notícia aqui é que um número crescente de ferramentas podem mitigar os desafios de análise comumente visto em grandes conjuntos de dados desorganizados.

Hadoop é projetada para executar análises complexas

Você não só pode armazenar praticamente qualquer coisa em Hadoop, mas também executar praticamente qualquer tipo de algoritmo contra esses dados. Os modelos de aprendizagem automática e bibliotecas incluídas no Apache Mahout são exemplos, e eles podem ser usados ​​para uma variedade de problemas, incluindo sofisticados classificar elementos com base em um grande conjunto de dados de treino.

Hadoop pode processar um conjunto de dados completo

Para os tipos de fraude de análise de casos de uso, dados da indústria de várias fontes indicam que menos de 3 por cento de todos os retornos e reclamações são auditados. Concedido, em muitas circunstâncias, tais como polling eleição, analisando pequenos conjuntos de amostras de dados é útil e suficiente.

Mas, quando 97 por cento dos retornos e as reivindicações não são auditadas, mesmo com regras de amostragem boas, muitas devoluções fraudulentas ainda ocorrem. Ao ser capaz de executar a análise de fraude contra todo o corpus de dados, você agora começar a decidir se a amostra.

Hardware está sendo otimizado para Hadoop

Intel é agora um jogador no mercado de distribuição de Hadoop. Este movimento pela Intel foi um argucioso porque o seu trabalho de distribuição mostra a seriedade e compromisso por trás de seus esforços de integração de código aberto.

Com Hadoop, a Intel vê uma tremenda oportunidade para vender mais hardware. Afinal, clusters Hadoop pode caracterizar centenas de nós, todos os processadores que requerem, placas-mãe, RAM e discos rígidos. Intel tem investido fortemente na compreensão Hadoop para que ele possa construir otimizações específicas-Intel hardware que seus colaboradores Hadoop pode integrar em projectos open source Hadoop.

Outras grandes fornecedores de hardware (como IBM, Dell e HP) também estão trazendo ativamente ofertas Hadoop-amigáveis ​​para o mercado.

Hadoop podem cada vez mais lidar com cargas de trabalho flexíveis

Durante os quatro anos de preparativos para o lançamento do Hadoop 2, uma grande quantidade de atenção foi dirigida a resolver o problema de ter um único ponto de falha (SPOF) com o HDFS NameNode. Embora este sucesso particular foi, sem dúvida, uma melhoria importante, uma vez que muito fez para permitir a estabilidade da empresa, FIO é um desenvolvimento muito mais significativo.

Até Hadoop 2, o único tratamento que poderia ser feito em um cluster Hadoop foi reservada no quadro MapReduce. Este foi aceitável para as análises de log casos de uso que Hadoop foi originalmente construído para, mas com o aumento da adoção veio a real necessidade de maior flexibilidade.

menu