Questões de desempenho em Gestão Architectural Big Data
Sua arquitetura de dados grande também precisa executar em conjunto com infraestrutura de suporte da sua organização. Por exemplo, você pode estar interessado em rodar modelos para determinar se é seguro de prospecção de petróleo em uma área ao largo dada em tempo real de dados de temperatura, salinidade, ressuspensão dos sedimentos, e uma série de outras alternativas biológicas, químicas e propriedades físicas de a coluna de água.
Menu
Pode levar dias para executar este modelo usando uma configuração de servidor tradicional. No entanto, usando um modelo de computação distribuída, o que levou dias pode agora tomar minutos.
O desempenho também pode determinar o tipo de banco de dados que você usaria. Por exemplo, em algumas situações, você pode querer entender como dois elementos de dados muito distintas estão relacionados. Qual é a relação entre zumbido em uma rede social e do crescimento das vendas? Esta não é a consulta típica você poderia pedir de uma base de dados estruturada, relacional.
Um banco de dados de gráficos pode ser uma escolha melhor, como ele é projetado especificamente para separar o # 147-nodes # 148- ou entidades a partir da sua Número 147-properties # 148- ou as informações que definem essa entidade, bem como a # 147 de ponta # 148- ou relação entre nós e propriedades. Usando o banco de dados certo também irá melhorar o desempenho. Tipicamente, a base de dados gráfico vai ser utilizado em aplicações científicas e técnicas.
Outras abordagens importantes de banco de dados operacionais incluem bancos de dados colunar que armazenam informações de forma eficiente em colunas em vez de linhas. Esta abordagem leva a um desempenho mais rápido, porque de entrada / saída é extremamente rápido. Quando o armazenamento de dados geográficos é parte da equação, uma base de dados espacial é optimizado para armazenar dados e consulta com base na forma como os objectos estão relacionados no espaço.
Organizar serviços de dados grandes e ferramentas
Nem todos os dados que as organizações utilizam está operacional. Uma quantidade crescente de dados vem de uma variedade de fontes que não são tão organizadas ou simples, incluindo os dados que vem de máquinas ou sensores, e enormes fontes de dados públicas e privadas. No passado, a maioria das empresas não foram capazes de qualquer captura ou armazenar esta vasta quantidade de dados. Era simplesmente muito caro ou muito grandes.
Mesmo que as empresas foram capazes de capturar os dados, eles não têm as ferramentas para fazer nada sobre isso. algumas ferramentas muito poderia dar sentido a essas grandes quantidades de dados. As ferramentas que existiam eram complexos de usar e não produzir resultados em um prazo razoável.
No final, aqueles que realmente queria ir para o enorme esforço de analisar esses dados foram forçados a trabalhar com instantâneos de dados. Isto tem o efeito indesejável de perder eventos importantes, porque eles não estavam em um instantâneo particular.
MapReduce, Hadoop e Big Table for big data
Com a evolução da tecnologia de computação, é agora possível gerir imensos volumes de dados. Os preços dos sistemas caíram, e, como resultado, novas técnicas de computação distribuída são mainstream. O verdadeiro avanço aconteceu como empresas como Yahoo !, Google e Facebook chegou à conclusão de que precisava de ajuda para monetizar as enormes quantidades de dados que eles estavam criando.
Estas empresas emergentes precisavam encontrar novas tecnologias que lhes permitam armazenar, acessar e analisar enormes quantidades de dados em tempo quase real, de modo que eles poderiam rentabilizar os benefícios de possuir esta quantidade de dados sobre os participantes em suas redes.
Suas soluções resultantes estão transformando o mercado de gerenciamento de dados. Em particular, o MapReduce inovações, Hadoop e Big Table provou ser as faíscas que levaram a uma nova geração de gerenciamento de dados. Estas tecnologias resolver um dos problemas mais fundamentais - a capacidade de processar grandes quantidades de dados de forma eficiente, de forma rentável e em tempo hábil.
MapReduce
MapReduce foi concebido pelo Google como uma forma de execução de forma eficiente um conjunto de funções de encontro a uma grande quantidade de dados em modo de lote. o # 147-map # 148- componente distribui o problema de programação ou tarefas através de um grande número de sistemas e lida com a colocação das tarefas. Ele também equilibra a carga e gere a recuperação de falhas. Outra função chamada # 147 reduzir # 148- agrega todos os elementos de volta juntos para obter um resultado.
Mesa grande
Big Table foi desenvolvido pelo Google para ser um sistema de armazenamento distribuído destinado a gerenciar dados estruturados altamente escaláveis. Os dados são organizados em tabelas com linhas e colunas. Ao contrário de um modelo de banco de dados relacional tradicional, Big Table é um, distribuídos, mapa ordenada multidimensional persistente escassa. Destina-se a armazenar grandes volumes de dados em servidores de commodities.
Hadoop
Hadoop é um framework de software Apache de gestão derivada de MapReduce e Big Table. Hadoop permite que aplicações baseadas em MapReduce para rodar em grandes aglomerados de hardware commodity. O projeto é a base para a arquitetura de computação de apoio às empresas do Yahoo!. Hadoop é projetado para paralelizar o processamento de dados entre os nós de computação para acelerar cálculos e esconder a latência.
Dois principais componentes do Hadoop existe: um sistema de arquivos distribuídos massivamente escalável que pode suportar petabytes de dados e um mecanismo MapReduce massivamente escalável, que calcula os resultados em lote.