Desempenho e Big Data
Basta ter um computador mais rápido não é suficiente para garantir o nível adequado de desempenho para lidar com grandes dados. Você precisa ser capaz de distribuir componentes do seu serviço de dados grande em uma série de nós. Em computação distribuída, um nó é um elemento contido dentro de um conjunto de sistemas ou dentro de um rack.
Um nó geralmente inclui CPU, memória e algum tipo de disco. No entanto, um nó pode também ser uma lâmina de CPU e de memória que dependem de armazenamento vizinha dentro de uma cremalheira.
Dentro de um ambiente de dados grande, esses nós são tipicamente agrupadas em conjunto para proporcionar escala. Por exemplo, você pode começar com uma análise de dados grande e continuar a adicionar mais fontes de dados. Para acomodar o crescimento, uma organização simplesmente adiciona mais nós para um cluster de modo que ele pode ser dimensionado para acomodar necessidades de crescimento.
No entanto, não é suficiente simplesmente expandir o número de nós no cluster. Pelo contrário, é importante ser capaz de enviar parte da análise de dados grande para diferentes ambientes físicos. Onde você envia essas tarefas e como você gerenciá-los faz a diferença entre sucesso e fracasso.
Em algumas situações complexas, você pode querer executar muitos algoritmos diferentes em paralelo, mesmo dentro do mesmo cluster, para atingir a velocidade de análise necessário. Por que você executar diferentes algoritmos de dados grandes em paralelo dentro do mesmo rack? Quanto mais próximas as distribuições de funções são, mais rápido eles podem executar.
Embora seja possível distribuir análise de dados grande em redes para aproveitar a capacidade disponível, você deve fazer este tipo de distribuição baseada em requisitos de desempenho. Em algumas situações, a velocidade de processamento tem um assento traseiro. No entanto, noutras situações, a obtenção de resultados rápida é o requisito. Nesta situação, você quer ter certeza de que as funções de rede estão em estreita proximidade um do outro.
Em geral, o ambiente de dados grande tem de ser optimizada para o tipo de tarefas de análise. Portanto, a escalabilidade é o eixo de fazer operar grandes dados com êxito. Apesar de que seria teoricamente possível utilizar um grande ambiente de dados dentro de um único ambiente grande, não é prático.
Para entender as necessidades de escalabilidade em big data, só tem de olhar para escalabilidade em nuvem e compreender os requisitos e a abordagem. Como a computação em nuvem, Big Data exige a inclusão de redes rápidas e clusters de baixo custo de hardware que podem ser combinados em racks para aumentar o desempenho. Estes aglomerados são suportados pela automação software que possibilita a ampliação dinâmica e balanceamento de carga.
A concepção e implementação de MapReduce são excelentes exemplos de como a computação distribuída pode fazer grandes dados operacionalmente visível e acessível. Em essência, as empresas estão em um dos pontos de viragem únicas em computação, onde os conceitos de tecnologia se unem no momento certo para resolver os problemas certos. Combinando computação distribuída, sistemas de hardware melhoradas e soluções práticas como MapReduce e Hadoop está mudando de gerenciamento de dados de maneira profunda.