Layer 3 do Big Data Stack: organização de serviços de dados e ferramentas

Organização de serviços de dados e ferramentas, camada 3 da pilha de dados grande, captura, validar e montar vários elementos de dados grandes em coleções contextualmente relevantes. Porque grande de dados é enorme, as técnicas evoluíram para processar os dados de forma eficiente e sem problemas. MapReduce é uma técnica muito utilizado. Basta dizer aqui que muitos desses serviços de dados de organização são os motores de MapReduce, especificamente concebido para optimizar a organização dos fluxos de dados grandes.

Organização de serviços de dados são, na realidade, um ecossistema de ferramentas e tecnologias que podem ser usadas para recolher e reunir dados em preparação para posterior processamento. Como tal, as ferramentas precisam oferecer integração, a tradução, a normalização, e escala. Technologies nesta camada incluem o seguinte:

  • Um sistema de arquivos distribuídos: Necessário para acomodar a decomposição de fluxos de dados e fornecer capacidade de escala e de armazenamento

  • serviços de serialização: Necessário para armazenamento de dados persistente e chamadas de procedimento remoto em vários idiomas (RPC)

  • serviços de coordenação: Necessário para a construção de aplicações distribuídas (bloqueio e assim por diante)

  • Extração, transformação e carregamento (ETL): Necessário para o carregamento e conversão de dados estruturados e não estruturados em Hadoop

  • serviços de fluxo de trabalho: Necessária para planejar tarefas e fornecendo uma estrutura para sincronizar os elementos do processo ao longo das camadas

menu