Gerenciamento de Big Data Technologies em uma nuvem híbrida
O termo big Data
é frequentemente utilizado no mundo da tecnologia de nuvem híbrida devido à necessidade contínua de processar quantidades crescentes de dados. O fato importante sobre big data é que ele existe no ponto de inflexão das soluções que as organizações têm historicamente postas em prática para gerenciar grandes volumes de dados complexos. tecnologias de dados grandes permitir que as pessoas, na verdade, analisar e utilizar esses dados de forma eficaz.características de Big Data
Big data geralmente tem três características - o volume, variedade e velocidade:
Volume: Big data é grande em volume. De modo geral, refere-se a, pelo menos, vários terabytes de dados. Muitas implementações de big data está olhando para analisar petabytes de informação.
Nome Valor Byte 100 Gigabyte 109 bytes terabyte 1012 bytes petabyte 1015 bytes Exabyte 1018 bytes Variedade: Big data vem em diferentes formas e tamanhos. Ele inclui estes tipos de dados:
Os dados estruturados é o tipo típico de dados que os analistas estão acostumados a lidar com. Ele inclui receitas e número de vendas - o tipo de dados que você pensa sobre a inclusão em um banco de dados. Os dados estruturados também está sendo produzido em novas formas de produtos, tais como sensores e etiquetas RFID.
dados semi-estruturado tem alguma estrutura para isso, mas não da maneira que você pensa sobre as tabelas em um banco de dados. Ele inclui formatos EDI e XML.
dados não estruturados inclui texto, imagem, áudio e vídeo, incluindo qualquer documento, mensagem de e-mail, tweet, ou blog interno para uma empresa ou na Internet. dados não estruturados é responsável por cerca de 80 por cento de todos os dados.
Velocidade: Esta é a velocidade à qual os dados se move. Pense sobre sensores de captura de dados a cada milissegundo ou fluxos de dados de saída do equipamento médico. Big data muitas vezes vem para você em um córrego, por isso, tem uma natureza de tempo real associado a ele.
A nuvem é um lugar ideal para grandes volumes de dados, devido ao seu armazenamento escalável, capacidade de computação e recursos elásticas. O modelo de nuvem é grande Scale computação distribuída e uma série de estruturas e tecnologias surgiram para apoiar este modelo, incluindo
Apache Hadoop: Uma plataforma de computação distribuída de código aberto escrito em Java. É uma biblioteca de software que permite processamento distribuído através de clusters de computadores. É realmente um sistema de arquivos distribuídos. Ele cria um pool de computador, cada um com um sistema de arquivos Hadoop. Hadoop foi projetado para lidar com grandes quantidades de dados complexos. Os dados podem ser estruturados, não estruturados, ou semi-estruturada. Hadoop pode ser executado através de uma grande quantidade de servidores que não compartilham memória ou disco. Vejo Hadoop Para maiores informações.
MapReduce: A estrutura de software introduzido pela Google para suporte à computação distribuída em grandes conjuntos de dados. É no coração do que Hadoop está fazendo com grandes dados e análise de dados grandes. Ele foi projetado para tirar proveito dos recursos de nuvem. Esta computação é feito através de vários computadores, chamada aglomerados, e cada grupo é referido como um nó. MapReduce pode lidar com dados estruturados e não estruturados. Usuários especificar uma função de mapa que processa um par chave / valor para gerar um conjunto de pares intermediários e uma função de redução que mescla esses pares.
bases de dados de dados grandes
Um recurso importante do Hadoop é que ele pode lidar com diferentes tipos de dados. sistemas de gerenciamento de banco de dados paralelos têm sido no mercado há décadas. Eles podem apoiar a execução paralela, porque a maioria das mesas estão divididos sobre os nós em um cluster, e eles podem traduzir comandos SQL em um plano que é dividido entre os nós do cluster. No entanto, eles lidam com dados estruturados porque é difícil de encaixar, dados de forma livre não estruturados para as colunas e linhas em um modelo relacional.
Hadoop começou um movimento em que foi chamado NoSQL, o que significa não só SQL. O termo refere-se a um conjunto de tecnologias que é diferente dos sistemas de base de dados relacionais. Uma diferença importante é que eles não usam SQL. Eles também são projetados para armazenamentos de dados distribuídos.
O NoSQL não significa que as pessoas não devem estar usando SQL. Pelo contrário, a ideia é que, dependendo de qual é seu problema, bancos de dados relacionais e bancos de dados NoSQL podem coexistir em uma organização. Existem numerosos exemplos destes tipos de bancos de dados, incluindo os seguintes:
Apache Cassandra: Um sistema de gerenciamento de dados de código aberto distribuído originalmente desenvolvido pelo Facebook. Ele não tem requisitos rigorosos estrutura, para que ele possa lidar com todos os diferentes tipos de dados. Especialistas afirmam que se destaca em alto volume, processamento de transações em tempo real. Outros bancos de dados de código aberto incluem MongoDB, Apache CouchDB e HBase.
Amazon DB simples: Amazon compara esse banco de dados para uma planilha em que tem colunas e linhas com atributos e itens armazenados em cada um. Ao contrário de uma folha de cálculo, no entanto, cada célula pode ter vários valores, e cada item pode ter seu próprio conjunto de atributos associados. Amazon então indexa automaticamente os dados. Recentemente, a Amazon anunciou Amazon Dynamo DB como uma maneira de trazer grandes NoSQL de dados para a nuvem.
Google BigTable: Este híbrido é uma espécie de um grande mesa. Como as tabelas podem ser grandes, eles estão divididos nos limites de linha em tabelas, que podem ser centenas de megabytes ou mais. MapReduce é muitas vezes usado para gerar e modificar os dados armazenados no BigTable.