Big Data For Dummies

Big data permite às organizações armazenar, gerenciar e manipular grandes quantidades de dados díspares na velocidade certa e no momento certo. Para obter as informações certas, big data é normalmente repartidos por três características:

  • Volume: A quantidade de dados

  • Velocidade: Como rápida de dados é processado

  • Variedade: Os vários tipos de dados

Embora seja conveniente para simplificar os dados grandes para os três Vs, pode ser enganosa e excessivamente simplista. Por exemplo, você pode estar gerenciando uma quantidade relativamente pequena de dados muito díspares e complexos, ou você pode ser o processamento de um grande volume de dados muito simples. Que os dados simples pode ser tudo estruturado ou tudo não estruturada.

Ainda mais importante é o quarto V, veracidade. Qual é a precisão que os dados na previsão de valor de negócio? Será que os resultados de uma análise de dados grande, na verdade, faz sentido? Os dados devem ser capazes de ser verificada com base na estabilidade e contexto. Uma empresa inovadora pode querer ser capaz de analisar grandes quantidades de dados em tempo real para avaliar rapidamente o valor do cliente e o potencial de fornecer ofertas adicionais para esse cliente. É necessário identificar a quantidade e tipos de dados que podem ser analisados ​​em tempo real para impactar resultados de negócios.

Big data incorpora todas as variedades de dados, incluindo dados estruturados e dados não estruturados de e-mails, mídias sociais, fluxos de texto, e assim por diante. Este tipo de gerenciamento de dados exige que as empresas a alavancar ambos os seus dados estruturados e não estruturados.

Compreender Dados Não Estruturados

dados não estruturados é diferente de dados estruturados em que a sua estrutura é imprevisível. Exemplos de dados não estruturados incluem documentos, e-mails, blogs, imagens digitais, vídeos e imagens de satélite. Ele também inclui alguns dados gerados por máquinas ou sensores. De fato, dados não estruturados representa a maioria dos dados que estão nas instalações da sua empresa, bem como externo para sua empresa em fontes privadas e públicas online, como Twitter e Facebook.

No passado, a maioria das empresas não foram capazes de qualquer captura ou armazenar esta vasta quantidade de dados. Era simplesmente muito caro ou muito grandes. Mesmo que as empresas foram capazes de capturar os dados, eles não têm as ferramentas para analisar facilmente os dados e usar os resultados para tomar decisões. algumas ferramentas muito poderia dar sentido a essas grandes quantidades de dados. As ferramentas que existiam eram complexos de usar e não produzir resultados em um prazo razoável.

No final, aqueles que realmente queria ir para o enorme esforço de analisar esses dados foram forçados a trabalhar com instantâneos de dados. Isto tem o efeito indesejável de perder eventos importantes, porque eles não estavam em um instantâneo particular.

Uma abordagem que está se tornando cada vez mais valorizada como uma forma de agregar valor aos negócios de dados não estruturados é análise de texto, o processo de análise de texto não estruturado, extrair informações relevantes, e transformando-os em informações estruturadas que podem ser aproveitados de várias maneiras. Os processos de análise e extração de tirar proveito das técnicas que se originaram em linguística computacional, estatística e outras disciplinas de ciência da computação.

O papel dos dados operacionais tradicionais no ambiente de dados Big

Saber o que os dados são armazenados e onde é armazenado são blocos de construção críticas na implementação de dados grande. É improvável que você vai usar RDBMSs para o núcleo da implementação, mas é muito provável que você vai precisar contar com os dados armazenados no RDBMSs para criar o mais alto nível de valor para o negócio com big data.

A maioria das empresas grandes e pequenas, provavelmente, armazenar a maior parte de sua informação operacional importante em sistemas de gerenciamento de banco de dados relacionais (RDBMS), que são construídos sobre uma ou mais relações e representados por tabelas. Estas tabelas são definidos por forma a que os dados são dados stored.The é armazenado no banco de dados chamados objectos tabelas - organizados em linhas e colunas. RDBMSs seguir uma abordagem coerente na forma como os dados são armazenados e recuperados.

Para obter o maior valor de negócio a partir de sua análise em tempo real de dados não estruturados, você precisa entender que os dados em contexto com os dados históricos sobre clientes, produtos, transações e operações. Em outras palavras, você vai precisar para integrar os seus dados não estruturados com os seus dados operacionais tradicionais.

Noções básicas de Infra-estrutura de Dados Big

Big data é tudo sobre a alta velocidade, grandes volumes, e variedade de dados de largura, de modo a infra-estrutura física vai, literalmente, "fazer ou quebrar" a implementação. A maioria das implementações de dados grandes precisam ser altamente disponíveis, de modo a redes, servidores e armazenamento físico deve ser resistente e redundante.

Resiliência e redundância estão interligados. Uma infra-estrutura, ou um sistema, é resistente a falhas ou muda quando os recursos redundantes suficientes no local pronto para entrar em ação. Resiliência ajuda a eliminar pontos únicos de falha em sua infra-estrutura. Por exemplo, se existe apenas uma conexão de rede entre a sua empresa ea Internet, você não tem redundância de rede, ea infra-estrutura não é resiliente com relação a uma falha de rede.

Em grandes centros de dados com requisitos de continuidade de negócios, a maioria da redundância é no lugar e pode ser aproveitado para criar um ambiente de dados grande. Em novas implementações, os designers têm a responsabilidade de mapear a implantação para as necessidades do negócio com base nos custos e desempenho.

Gerenciamento de Big Data com Hadoop: HDFS e MapReduce

Hadoop, uma estrutura de software de código aberto, usa HDFS (Hadoop Distributed File System) e MapReduce para analisar os dados grandes em clusters de commodities hardware, ou seja, em um ambiente de computação distribuída.

O Hadoop Distributed File System (HDFS) foi desenvolvido para permitir que as empresas a gerir mais facilmente grandes volumes de dados de maneira simples e pragmática. Hadoop permite grandes problemas para ser decomposto em elementos menores, de modo que a análise pode ser feito rapidamente e com baixo custo. HDFS é uma abordagem versátil, resistente, em cluster para o gerenciamento de arquivos em um ambiente de dados grande.

HDFS não é o destino final para os arquivos. Pelo contrário, é um "serviço" de dados que oferece um conjunto exclusivo de capacidades necessárias quando os volumes e velocidade de dados são elevados.

MapReduce é uma estrutura de software que permite aos desenvolvedores escrever programas que podem processar grandes quantidades de dados não estruturados em paralelo através de um grupo distribuído de processadores. MapReduce foi concebido pelo Google como uma forma de execução de forma eficiente um conjunto de funções de encontro a uma grande quantidade de dados em modo de lote.

O "mapa" componente distribui o problema de programação ou tarefas através de um grande número de sistemas e lida com a colocação das tarefas de uma forma que equilibra a carga e gere a recuperação de falhas. Após a computação distribuída é concluída, outra função chamada "reduzir" agrega todos os elementos de volta juntos para obter um resultado. Um exemplo de uso MapReduce seria determinar quantas páginas de um livro são escritos em cada um dos 50 idiomas diferentes.

Preparando o terreno para a sua estratégia de Big Data

As empresas estão nadando em big data. O problema é que muitas vezes eles não sabem como usar de forma pragmática de que os dados para ser capaz de prever o futuro, executar processos de negócios importantes, ou simplesmente ganhar novos conhecimentos. O objetivo de sua estratégia de dados grande e plano deve ser o de encontrar uma forma pragmática para aproveitar os dados para os resultados de negócios mais previsíveis.

Comece a sua estratégia de dados grande, dando início a um processo de descoberta. Você precisa obter uma alça sobre os dados que você já tem, onde está, que possui e controla-lo, e como ele é usado atualmente. Por exemplo, quais são as fontes de dados de terceiros que sua empresa conta com? Este processo pode dar-lhe um monte de idéias:

  • Você pode determinar quantas fontes de dados que você tem e como existe muita sobreposição.

  • Você pode identificar existem lacunas no conhecimento sobre essas fontes de dados.

  • Você pode descobrir que você tem um monte de dados duplicados em uma área do negócio e quase não há dados em outra área.

  • Você pode verificar que você é dependente de dados de terceiros que não é tão preciso quanto deveria ser.

Passe o tempo que você precisa fazer este processo de descoberta, porque será a base para o planejamento e execução de sua estratégia de dados grande.

menu