Camada 4 do Big Data Stack: Armazéns dados analíticos
O armazém de dados, a camada 4 da pilha de dados grande, e seu companheiro de data mart, têm sido as principais técnicas que as organizações utilizam para otimizar dados para ajudar os tomadores de decisão. Normalmente, data warehouses e data marts contêm dados normalizados recolhidas a partir de uma variedade de fontes e montados para facilitar a análise do negócio.
data warehouses e data marts simplificar a criação de relatórios e visualização de itens de dados díspares. Eles são geralmente criados a partir de bancos de dados relacionais, bancos de dados multidimensionais, arquivos simples e bancos de dados de objetos - essencialmente qualquer arquitetura de armazenamento. Em um ambiente tradicional, onde o desempenho pode não ser a mais alta prioridade, a escolha da tecnologia subjacente é impulsionado pelos requisitos para a análise, relatórios e visualização dos dados da empresa.
Como a organização dos dados e a sua disponibilidade para a análise são chave, implementações de armazém a maioria dos dados são mantidos atualizados através de processamento em lote. O problema é que armazéns de dados carregados de lote e data marts pode ser insuficiente para muitas aplicações de dados grandes. O estresse imposto por fluxos de dados em alta velocidade provavelmente vai exigir uma abordagem mais em tempo real para grandes armazéns de dados.
Isso não significa que você não estará criando e alimentando um armazém de dados analíticos ou data mart com processos batch. Em vez disso, você pode acabar por ter múltiplos data warehouses ou data marts, eo desempenho ea escala irá reflectir os requisitos de tempo dos analistas e decisores.
Porque armazéns muitos dados e data marts são compostos de dados recolhidos a partir de várias fontes dentro de uma empresa, os custos associados com a limpeza e normalização dos dados também devem ser abordadas. Com os dados grandes, você encontrará algumas das principais diferenças:
fluxos de dados tradicionais (de transações, aplicativos e assim por diante) pode produzir uma grande quantidade de dados díspares.
também existem dezenas de novas fontes de dados, cada um deles precisando de algum grau de manipulação antes que ele possa ser oportuna e útil para o negócio.
fontes de conteúdo também terão de ser limpos, e estes podem exigir diferentes técnicas que você pode usar com dados estruturados.
Historicamente, o conteúdo de data warehouses e data marts foram organizados e entregues a líderes empresariais encarregado de estratégia e planejamento. Com os dados grandes, um novo conjunto de equipes estão aproveitando os dados para a tomada de decisão.
Muitas implementações de dados grandes fornecem capacidades em tempo real, para que as empresas devem ser capazes de fornecer conteúdo para permitir que indivíduos com funções operacionais para tratar de questões tais como o suporte ao cliente, oportunidades de vendas e falhas no serviço quase em tempo real. Desta forma, big data ajuda a mover ação a partir do back-office para o front office.
Existentes ferramentas e técnicas de análise será muito útil em fazer sentido de big data. No entanto, existe uma captura. Os algoritmos que fazem parte dessas ferramentas tem que ser capaz de trabalhar com grandes quantidades de dados potencialmente díspares em tempo real e. A infra-estrutura terá de ser posto em prática para apoiar esta.
E, os fornecedores fornecem ferramentas de análise também vai precisar para assegurar que os seus algoritmos funcionam em implementações distribuídas. Devido a estas complexidades, esperar uma nova classe de ferramentas para ajudar a fazer sentido dos dados grandes.
Existem três classes de ferramentas desta camada da arquitetura de referência. Eles podem ser usados de forma independente ou em conjunto pelos tomadores de decisão para ajudar a orientar o negócio. As três classes de ferramentas são como se segue:
Elaboração de relatórios e dashboards: Essas ferramentas fornecem uma representação "user-friendly" da informação de várias fontes. Embora um esteio no mundo de dados tradicional, esta área ainda está evoluindo para big data. Algumas das ferramentas que estão sendo usadas são aquelas tradicionais, que agora podem acessar os novos tipos de bancos de dados chamados coletivamente de NoSQL (e não apenas SQL).
Visualização: Essas ferramentas são o próximo passo na evolução da comunicação. A saída tende a ser altamente interativo e dinâmico na natureza. Outra distinção importante entre relatórios e saída visualizada é animação. Os utilizadores empresariais podem observar as mudanças nos dados utilizando uma variedade de diferentes técnicas de visualização, incluindo mapas mentais, mapas de calor, infográficos e diagramas de conexão. Relatórios e visualização ocorrem no final da atividade empresarial.
Analytics e análise avançada: Estas ferramentas chegar no armazém de dados e processar os dados para o consumo humano. análises avançadas deve explicar tendências ou eventos que são transformadora, original, ou revolucionária para a prática de negócios existente. A análise preditiva e análise de sentimento são bons exemplos desta ciência.