Descoberta de dados e caixas de areia de Hadoop
descoberta de dados está se tornando uma atividade cada vez mais importante para as organizações que dependem de seus dados para ser um diferencial. Hoje, que descreve a maioria das empresas, como a capacidade de ver as tendências e extrair significado a partir de conjuntos de dados disponíveis aplica-se a quase toda a indústria.
O que isso requer é de dois componentes críticos: analistas com a criatividade para pensar em novas maneiras de analisar conjuntos de dados para fazer novas perguntas (muitas vezes estes tipos de analistas são chamados cientistas de dados) - E para fornecer esses analistas, com acesso a dados, tanto quanto possível.
Considere a abordagem tradicional para análise no atual cenário de TI: A comunidade de usuários empresa agora normalmente determina as questões de negócios para pedir - eles apresentar um pedido, e a equipe de TI constrói um sistema que responde a perguntas específicas. De uma perspectiva técnica, porque esse trabalho tem sido tradicionalmente feito em um banco de dados relacional, tem sido responsabilidade da equipe de TI para construir esquemas, remover a duplicação de dados, e assim por diante.
Eles estão investindo muito tempo em fazer este queryable dados e para responder rapidamente perguntas pré-planejados que a unidade de negócios quer respondido. É por isso que os bancos de dados relacionais são normalmente considerados esquema-on-write, porque você tem que fazer um monte de trabalho, a fim de escrever para o banco de dados.
(Em muitos casos, a quantidade de trabalho vale a investment no entanto, em um mundo de dados grandes, o valor ea qualidade de muitos novos tipos de dados que trabalham com você é desconhecida.)
Esta abordagem banco de dados relacional é bem adequado para muitos processos de negócios comuns, tais como monitoramento de vendas pela geografia, produto ou CANAL extrair insights a partir de pesquisas de clientes, custos e rentabilidade análises, e mais - basicamente, as perguntas são feitas e outra vez.
Dados é tipicamente altamente estruturado e é provavelmente altamente confiável neste ambiente nesse ambiente- esta atividade é analytics guiadas.
Como uma analogia, é como se o seu filho de 8 anos de idade, está fazendo uma pausa para recesso na escola. Para a maior parte, ela pode fazer o que quiser no interior do recinto da escola -, enquanto ela permanece dentro da perimeter- cercado no entanto, ela não pode pular a cerca para descobrir o que está no exterior. Especificamente, a criança pode explorar uma conhecida, salvaguardada (no esquema) área e analisar o que quer que podem ser encontrados dentro dessa área.
Agora imagine que o seu ambiente de análise tem uma zona descoberta. Neste cenário, a TI fornece dados (é provável não ser totalmente confiável, e é provável # 147-sujo # 148-) em uma plataforma de descoberta flexível para os usuários de negócios para pedir praticamente qualquer questão que eles querem.
Na analogia, o seu filho está autorizado a escalar o muro escola (esta área é sem esquema), venture para a floresta, e voltar com os itens que ela descobre. (É claro que, no mundo de TI, você não precisa se preocupar com os usuários de negócios se perder ou ficar hera venenosa.)
Se você pensar sobre isso, espelhos de descoberta de dados em alguns aspectos, a evolução da mineração de ouro. Durante os anos da corrida do ouro da antiguidade, greves de ouro provocaria o investimento de recursos porque alguém descobriu ouro - era visível a olho nu, que tinha um valor claro, e, portanto, justifica o investimento.
Cinqüenta anos atrás, ninguém poderia dar ao luxo de minério de baixo teor mina de ouro, porque o custo-benefício ou tecnologia capaz não existia (equipamento para mover e manipular grandes quantidades de minério não estava disponível) e minério rico em grau ainda estava disponível (em comparação aos dias de hoje, o ouro era relativamente mais fácil de encontrar). Muito simplesmente, não era rentável (ou mesmo possível) para trabalhar através do ruído (minério de baixa qualidade) para encontrar os sinais (o ouro).
Com Hadoop, as instalações de TI têm agora o equipamento de capital para processar milhões de toneladas de minério (dados com um valor baixo por byte) para encontrar ouro que é quase invisível a olho nu (dados de alto valor por byte). E isso é exatamente o que a descoberta é tudo.
É sobre ter um baixo custo, repositório flexível, onde próximo a zero investimento é feito para enriquecer os dados até que uma descoberta é feita. Depois de uma descoberta é feita, pode fazer sentido para pedir mais recursos (para a minha descoberta de ouro) e formalizar-lo em um processo de análise que pode ser implantado em um data warehouse ou data mart especializada.
Quando idéias são feitas na zona de descoberta, de que é provável um bom momento para envolver o departamento de TI e formalizar um processo, ou ter essas pessoas prestam assistência a mais de descoberta em profundidade. Na verdade, esse novo padrão pode até se mudar para a área de análise guiadas.
O ponto é que é provisionado a zona de descoberta para os usuários de negócios a fazer e inventar perguntas que não ter pensado nisso antes. Porque essa zona reside em Hadoop, é ágil e permite que os usuários se aventurar na imensidão azul.
Repare que a figura tem uma zona de sandbox. Em algumas arquitecturas de referência, esta zona é combinada com a zona descoberta. Mantenha estas zonas separar porque esta área está sendo usado por desenvolvedores de aplicativos e instalações de TI para fazer a sua própria investigação, aplicações de teste, e, talvez, formalizar conclusões e descobertas na Discovery Zone quando é necessária a assistência de TI após uma descoberta potencial é feita.
A arquitetura de referência é flexível e pode ser facilmente ajustado. Nada é convertida em pedra: você pode tomar o que você precisa, deixe o que você não faz, e adicionar suas próprias nuances.
Por exemplo, algumas organizações podem optar por co-localizar todas as zonas em uma única Hadoop cluster- alguns podem optar por aproveitar um único cluster projetado com propósitos múltiplos e outros podem fisicamente separá-los.