Noções básicas de computação distribuída para Big Data

Se a sua empresa está considerando um projeto de dados grande, é importante que você entenda alguns conceitos básicos de computação distribuída em primeiro lugar. Não há um único modelo de computação distribuída, porque os recursos de computação podem ser distribuídos de muitas maneiras.

Por exemplo, você pode distribuir um conjunto de programas no mesmo servidor físico e usar serviços de mensagens que lhes permitam comunicar e transmitir informações. Também é possível ter muitos sistemas diferentes ou servidores, cada um com sua própria memória, que podem trabalhar em conjunto para resolver um problema.

computação distribuída por isso é necessário para a big data

Nem todos os problemas exigem computação distribuída. Se uma grande restrição de tempo não existe, o processamento complexo pode feito através de um serviço especializado remotamente. Quando as empresas precisavam fazer análise de dados complexos, seria mover dados para um serviço externo ou entidade onde os lotes de recursos peças estavam disponíveis para processamento.

Não era que as empresas queriam esperar para obter os resultados que necessário- apenas não era economicamente viável para comprar recursos de computação suficiente para lidar com estes requisitos emergentes. Em muitas situações, as organizações iria capturar apenas selecções de dados em vez de tentar capturar todos os dados por causa dos custos. Analistas queria todos os dados, mas teve de se contentar com instantâneos, na esperança de capturar os dados certos no momento certo.

Principais avanços de hardware e software revolucionou a indústria de gestão de dados. Em primeiro lugar, a inovação ea procura aumentou o poder e diminuiu o preço do hardware. Novo software surgiu entendido como tirar proveito deste hardware, automatizando processos como balanceamento de carga e otimização através de um conjunto enorme de nós.

O software incluído regras internas que entender que certas cargas de trabalho necessário um certo nível de desempenho. O software tratados todos os nós como se fossem simplesmente uma grande piscina de computação, armazenamento e ativos de rede, e moveu processos para outro nó sem interrupção se um nó falhou, usando a tecnologia de virtualização.

As mudanças na economia da computação e de dados grande

Fast-forward e muita coisa mudou. Ao longo dos últimos anos, o custo para adquirir recursos de computação e armazenamento diminuiu drasticamente. Auxiliado pela virtualização, servidores de commodities que podem ser agrupados e lâminas que podem ser ligados em rede em um rack mudou a economia da computação. Esta mudança coincidiu com a inovação em soluções de automação de software que melhoraram drasticamente a capacidade de gestão destes sistemas.

A capacidade de alavancagem computação distribuída e técnicas de processamento paralelo transformou radicalmente a paisagem e reduzir drasticamente a latência. Há casos especiais, tais como a alta frequência de negociação (HFT), em que baixa latência só pode ser alcançado por servidores fisicamente localizar em um único local.

O problema com a latência para big data

Um dos problemas perenes com o gerenciamento de dados - especialmente grandes quantidades de dados - tem sido o impacto da latência. Latência é o atraso dentro de um sistema baseado em atrasos na execução de uma tarefa. A latência é um problema em todos os aspectos da computação, incluindo comunicação, gerenciamento de dados, o desempenho do sistema e muito mais.

Se você já usou um telefone sem fio, você tem experimentado a latência em primeira mão. É o atraso nas transmissões entre você e seu interlocutor. Às vezes, a latência tem pouco impacto na satisfação do cliente, tais como se as empresas precisam analisar os resultados nos bastidores para planejar uma nova versão do produto. Isso provavelmente não requer resposta imediata ou acesso.

No entanto, o mais perto que a resposta é um cliente no momento da decisão, mais que as questões de latência.

computação distribuída e técnicas de processamento paralelo pode fazer uma diferença significativa na latência experimentada pelos clientes, fornecedores e parceiros. Muitas aplicações de dados grandes são dependentes de baixa latência por causa dos requisitos de dados grandes para a velocidade eo volume e variedade de dados.

Pode não ser possível construir um aplicativo de dados grande em um ambiente de alta latência, se alto desempenho é necessário. A necessidade de verificar os dados em tempo quase real também pode ser afetado pela latência. Quando você está lidando com dados em tempo real, um alto nível de latência significa a diferença entre o sucesso eo fracasso.

demanda de dados Big encontra soluções

O crescimento da Internet como uma plataforma para tudo, desde o comércio à medicina transformou a demanda por uma nova geração de gerenciamento de dados. No final de 1990, do motor e da Internet empresas como Google, Yahoo !, e Amazon.com foram capazes de expandir seus modelos de negócios, alavancando hardware barato para computação e armazenamento.

Em seguida, essas empresas precisavam de uma nova geração de tecnologias de software que lhes permitam rentabilizar as enormes quantidades de dados que eles estavam capturando de clientes. Estas empresas não poderia esperar por resultados do processamento analítico. Eles precisavam a capacidade de processar e analisar esses dados em tempo quase real.

menu