Os dados não estruturados em um ambiente de dados Big
dados não estruturados
são dados que não segue um formato especificado para big data. Se 20 por cento dos dados disponíveis às empresas é dados estruturados, os outros 80 por cento é desestruturado. dados não estruturados é realmente a maioria dos dados que você vai encontrar. Até recentemente, porém, a tecnologia realmente não suportam a fazer muito com ele, exceto armazená-lo ou analisá-lo manualmente.Fontes de dados não estruturados grande
dados não estruturados está em toda parte. Na verdade, a maioria dos indivíduos e organizações conduzem suas vidas em torno de dados não estruturados. Assim como com dados estruturados, de dados não estruturados é qualquer máquina gerado ou gerado humano.
Aqui estão alguns exemplos de dados não estruturados gerados por máquina:
As imagens de satélite: Isso inclui dados meteorológicos ou os dados que o governo capta no seu imaginário vigilância por satélite. Basta pensar sobre o Google Earth, e você começa a foto.
Os dados científicos: Isso inclui imagens sísmicas, dados atmosféricos e física de altas energias.
Fotografias e vídeo: Isto inclui a segurança, vigilância e vídeo tráfego.
Radar ou sonar de dados: Isso inclui veículos, meteorológico e perfis sísmicos oceanográficos.
A lista a seguir mostra alguns exemplos de dados não estruturados gerados pelo homem:
Texto interno para sua empresa: Pense em todo o texto em documentos, registros, os resultados da pesquisa e e-mails. informação da empresa, na verdade, representa uma grande porcentagem das informações de texto no mundo de hoje.
Sociais de dados de mídia: Esta informação é gerada a partir das plataformas de mídia social como o YouTube, Facebook, Twitter, LinkedIn e Flickr.
Dados móveis: Isto inclui dados, tais como mensagens de texto e informação de localização.
conteúdo do site: Isto vem a partir de qualquer site de entrega de conteúdo não-estruturado, como o YouTube, Flickr, ou Instagram.
E a lista continua.
Algumas pessoas acreditam que o termo dados não estruturados é enganosa porque cada documento pode conter a sua própria estrutura específica ou a formatação com base no software que o criou. No entanto, o que é interno ao documento é verdadeiramente não estruturada.
De longe, os dados não estruturados é o maior pedaço da equação de dados, e os casos de uso de dados não estruturados estão se expandindo rapidamente. No lado do texto sozinho, análise de texto pode ser utilizado para analisar texto não estruturado e para extrair os dados pertinentes e transformar os dados em informações estruturado que pode ser usado de várias maneiras.
Por exemplo, um popular grande caso de uso de dados é análise de mídia sociais para uso com conversas com clientes de alto volume. Além disso, dados não estruturados a partir de notas de call center, e-mails, comentários escritos em uma pesquisa, e outros documentos são analisados para entender o comportamento do cliente. Isto pode ser combinado com a mídia social de dezenas de milhões de fontes para entender a experiência do cliente.
O papel de um CMS no gerenciamento de dados grande
Organizações armazenar alguns dados não estruturados em bases de dados. No entanto, eles também utilizam sistemas de gerenciamento de conteúdo corporativo (CMSs) que podem gerenciar o ciclo de vida completo do conteúdo. Isso pode incluir o conteúdo da web, o conteúdo do documento, e meios de comunicação de outras formas.
De acordo com Associação para a Gestão da Informação e Imagem (AIIM), uma organização sem fins lucrativos que oferece educação, pesquisa e melhores práticas, Enterprise Content Management (ECM) compreende a Número 147-estratégias, métodos e ferramentas utilizadas para capturar, gerenciar, armazenar, preservar e distribuir conteúdo e documentos relacionados aos processos organizacionais. # 148- As tecnologias incluídas no ECM incluem gerenciamento de documentos, gerenciamento de registros, de imagem, gerenciamento de fluxo de trabalho, web gerenciamento de conteúdo e colaboração.
A indústria como um todo cresceu em torno do conteúdo de gestão, e muitos fornecedores de gerenciamento de conteúdo estão a reduzir as suas soluções para lidar com grandes volumes de dados não estruturados. No entanto, as novas tecnologias também estão evoluindo para ajudar a suportar dados não estruturados e da análise de dados não estruturados. Alguns destes apoiar tanto dados estruturados e não estruturados. Alguns suporte em tempo real córregos. Estes incluem tecnologias como Hadoop, MapReduce e streaming.
Sistemas que são projetados para armazenar o conteúdo na forma de sistemas de gerenciamento de conteúdo não são mais soluções stand-alone. Ao contrário, eles são susceptíveis de ser parte de uma solução global de gestão de dados. Por exemplo, sua organização pode monitorar feeds do Twitter, que podem então desencadear programaticamente uma pesquisa CMS.
Agora, a pessoa que accionou o tweet recebe uma volta resposta que oferece um local onde o indivíduo pode encontrar o produto que ele ou ela pode estar procurando. O maior benefício é quando este tipo de interação pode acontecer em tempo real. Ele também ilustra o valor de alavancar em tempo real desestruturada, estruturada (dados do cliente sobre a pessoa que twittou) e semi-estruturada (o conteúdo real no CMS) de dados.
A realidade é que você provavelmente vai usar uma abordagem híbrida para resolver seus problemas de dados grandes. Por exemplo, não faz sentido para mover todo o seu conteúdo de notícias, por exemplo, em Hadoop em suas instalações porque é suposto para ajudar a gerenciar dados não estruturados.