Big data: A Necessidade de Metadados em Fluxos de Dados

A maioria dos grandes profissionais de gerenciamento de dados estão familiarizados com a necessidade de gerir metadados em ambientes de gerenciamento de banco de dados estruturados. Estas fontes de dados são fortemente digitado (por exemplo, os dez primeiros caracteres são o primeiro nome) e concebidas para operar com metadados. Você pode supor que os metadados é inexistente em dados não estruturados, mas isso não é verdade.

Normalmente você encontrar estrutura em qualquer tipo de dados. Tomemos o exemplo de vídeo. Embora você possa não ser capaz de saber exatamente o conteúdo de um vídeo específico, um monte de estrutura existe no formato de que os dados em vídeo. Se você está olhando para texto não estruturado, você sabe que as palavras são escritas em Inglês e que se você aplicar as ferramentas certas, você pode interpretar o texto.

Devido a isso metadados implícita de dados não estruturados, é possível analisar as informações utilizando eXtensible Markup Language (XML). XML é uma técnica para a apresentação de arquivos de texto não estruturados com marcas significativas. A tecnologia subjacente não é novo e foi uma das tecnologias fundamentais para a implementação orientação para o serviço.

Exemplos de produtos para streaming de dados incluem InfoSphere Streams da IBM, tempestade do Twitter e S4 do Yahoo.

Big Data e IBM InfoSphere Streams

InfoSphere Streams fornece uma análise contínua de grandes volumes de dados. Pretende-se realizar análises complexas de tipos de dados heterogêneos, incluindo texto, imagens, áudio, voz, VoIP, vídeo, o tráfego na web, e-mail, dados de GPS, dados de transações financeiras, dados de satélite e sensores. InfoSphere Streams pode suportar todos os tipos de dados. Ele pode executar em tempo real e olhar em frente análise de dados produzidos regularmente, usando filtragem digital, análise de padrão / correlação, e decomposição bem como a análise geospacial.

Grandes dados e Tempestade do Twitter

Tempestade do Twitter é um mecanismo de análise em tempo real de código aberto desenvolvido por uma empresa chamada BackType que foi adquirido pelo Twitter em 2011 parcialmente porque o Twitter usa tempestade internamente. Ele ainda está disponível como código aberto e foi ganhando força significativa entre as empresas emergentes.

Ele pode ser usado com qualquer linguagem de programação para aplicações tais como análises em tempo real, computação contínua, distribuídos chamadas de procedimento remoto (RPC), e integração. A tempestade está projetado para trabalhar com tecnologias de enfileiramento e banco de dados existentes. As empresas que utilizam tempestade em seus grandes implementações de dados incluem Groupon, RocketFuel, Navisite e Oolgala.

Grandes dados e Apache S4

Os quatro S'S no S4 representam simples Scalable Sistema de Transmissão. Apache S4 foi desenvolvido pelo Yahoo! como um de uso geral, distribuído, plataforma escalável, parcialmente tolerante a falhas, conectável que permite que os programadores para desenvolver facilmente aplicações para o processamento de fluxos contínuos de dados. A plataforma principal é escrito em Java e foi lançado pela Yahoo! em 2010.

Um ano mais tarde, foi entregue à Apache sob a licença Apache 2.0. Os clientes que enviam e recebem eventos podem ser escritos em qualquer linguagem de programação. S4 é concebido como um sistema altamente distribuído. Taxa de transferência pode ser aumentada linearmente pela adição de nós em um cluster. O projeto S4 é mais adequado para aplicações em larga escala para a mineração de dados e aprendizagem de máquina em um ambiente de produção.

menu