Como usar o Data Streaming para Big Data

Às vezes, quando se aproxima de big data, as empresas estão confrontados com enormes quantidades de dados e pouca idéia de onde ir em seguida. Digite o fluxo de dados. Quando uma quantidade significativa de dados precisa ser rapidamente processados ​​em tempo quase real para obter insights, dados em movimento na forma de dados de streaming é a melhor resposta.

O que é que está dados não em repouso? Isso seria sistemas que estão gerenciando transações ativas e, portanto, precisa ter persistência. Nestes casos, os dados serão armazenados num armazenamento de dados operacionais. No entanto, em outras situações, essas transações foram executadas, e é hora de analisar esses dados normalmente em um data warehouse ou data mart.

Isto significa que a informação está a ser processado em lotes e não em tempo real. Quando as organizações estão planejando para o seu futuro, eles precisam ser capazes de analisar grandes quantidades de dados, que vão desde informações sobre o que os clientes estão comprando e por que. É importante entender os principais indicadores de mudança. Em outras palavras, como é que muda impacto que produtos e serviços de uma organização vai oferecer no futuro?

Muitas organizações de pesquisa estão usando este tipo de grandes análise de dados para descobrir novos medicamentos. Uma companhia de seguros pode querer comparar os padrões de acidentes de trânsito através de uma ampla área geográfica com as estatísticas meteorológicas. Nestes casos, existe nenhum benefício para gerir esta informação na velocidade em tempo real. Claramente, a análise tem de ser rápido e prático. Além disso, as organizações irão analisar os dados para ver se novos padrões emergem.

Streaming de dados é uma plataforma de computação analítica que está focada na velocidade. Isto é porque estas aplicações requerem um fluxo contínuo de dados muitas vezes não estruturados para serem processados. Portanto, os dados são analisados ​​e transformados continuamente em memória antes de ser armazenado num disco. fluxos de processamento de dados funciona através do processamento Número 147 de tempo de janelas # 148- de dados na memória em um cluster de servidores.

Isto é semelhante à abordagem na gestão de dados em repouso alavancar Hadoop. A principal diferença é a questão da velocidade. No cluster Hadoop, os dados são recolhidos na modalidade de grupo e, em seguida, processadas. Velocidade importa menos em Hadoop que ele faz em streaming de dados. Alguns princípios fundamentais definir quando usar fluxos é mais apropriado:

  • Quando for necessário para determinar uma oportunidade de compra de retalho no ponto de acoplamento, quer através de meios de comunicação social ou por meio de mensagens baseado em permissão

  • Coleta de informações sobre o movimento em torno de um site seguro

  • Para ser capaz de reagir a um evento que precisa de uma resposta imediata, como uma interrupção de serviço ou uma mudança no estado de saúde de um paciente

  • cálculo em tempo real dos custos que são dependentes de variáveis ​​como o uso e os recursos disponíveis

Os dados de transmissão é útil quando analytics precisa ser feito em tempo real, enquanto os dados está em movimento. Na verdade, o valor da análise (e muitas vezes os dados) diminui com o tempo. Por exemplo, se você não pode analisar e agir imediatamente, uma oportunidade de vendas pode ser perdido ou uma ameaça pode passar despercebido.

A seguir estão alguns exemplos que podem ajudar a explicar como isso é útil.

Uma usina de energia precisa ser um ambiente altamente seguro para que pessoas não autorizadas não interferir com o fornecimento de energia para os clientes. As empresas muitas vezes colocar sensores em torno do perímetro de um local para detectar movimento. Mas um problema poderia existir. Existe uma enorme diferença entre um coelho que scurries em torno do local e uma condução de carro por rapidamente e deliberadamente. Portanto, a grande quantidade de dados provenientes desses sensores precisa ser analisado em tempo real, de modo que um alarme é soado apenas quando existe uma ameaça real.

A empresa de telecomunicações em um mercado altamente competitivo quer ter certeza de que as interrupções são cuidadosamente monitorados para que uma gota detectada em níveis de serviço pode ser escalado para o grupo apropriado. sistemas de comunicação de gerar enormes volumes de dados que têm de ser analisados ​​em tempo real para tomar as medidas adequadas. Um atraso na detecção de um erro pode impactar seriamente a satisfação do cliente.

Escusado será dizer que as empresas estão lidando com uma grande quantidade de dados que precisam ser processados ​​e analisados ​​em tempo real. Portanto, o ambiente físico que suporte esse nível de resposta é crítico. ambientes de dados que fluem normalmente requerem uma solução de hardware de cluster, e às vezes será necessária uma abordagem de processamento massivamente paralelo para lidar com a análise.

Um fator importante sobre a análise de dados de streaming é o fato de que é uma análise de uma única passagem. Em outras palavras, o analista não pode reanalisar os dados depois que ele é transmitido. Isso é comum em aplicações onde você está olhando para a ausência de dados.

Se vários passos são necessários, os dados terão que ser colocado em algum tipo de armazém, onde a análise adicional pode ser realizada. Por exemplo, é muitas vezes necessário para estabelecer o contexto. Como é que este fluxo de dados comparar com dados históricos? Esta correlação pode dizer muito sobre o que foi alterado e que essa mudança pode significar para o seu negócio.

menu