Modificar produtos Business Intelligence lidar com Big Data
produtos de inteligência de negócios tradicionais não foram realmente projetado para lidar com grandes volumes de dados, de modo que eles podem exigir algumas modificações. Eles foram projetados para trabalhar com dados, bem compreendidos altamente estruturadas, muitas vezes armazenados em um repositório de dados relacional e exibidos em seu desktop ou laptop. Esta análise de inteligência de negócios tradicional é normalmente aplicada para instantâneos de dados, em vez de toda a quantidade de dados disponíveis. O que há de diferente com a análise de dados grande?
dados dados Big
Big data consiste em dados estruturados, semi-estruturados e não estruturados. Muitas vezes você tem um monte dele, e ele pode ser bastante complexo. Quando você pensa sobre analisá-lo, você precisa estar ciente das características potenciais dos seus dados:
Ela pode vir de fontes não confiáveis. análise de dados Big muitas vezes envolve a agregação de dados de várias fontes. Estes podem incluir tanto as fontes de dados internas e externas. Como de confiança são essas fontes externas de informação? Por exemplo, o quão confiável é de dados de mídia social como um tweet? As informações podem ser provenientes de uma fonte não confirmada. A integridade de dados deve ser considerada na análise.
Ele pode estar sujo. dados sujos refere-se a dados imprecisos, incompletos ou errados. Isso pode incluir o erro de ortografia de palavras: um sensor que está quebrado, não devidamente calibrado, ou corrompido em algum caminho- ou até mesmo dados duplicados. cientistas de dados debater sobre onde para limpar os dados - ou perto da fonte ou em tempo real.
Claro, uma escola de pensamento diz que os dados sujos não devem ser limpos em tudo, pois pode conter valores extremos interessantes. A estratégia de limpeza provavelmente vai depender da fonte eo tipo de dados eo objetivo de sua análise. Por exemplo, se você está desenvolvendo um filtro de spam, o objetivo é detectar os maus elementos nos dados, para que você não gostaria de limpá-lo.
A razão sinal-para-ruído pode ser baixa. Em outras palavras, o sinal (informação utilizável) pode ser apenas uma pequena percentagem do ruído de dados do é o resto. Ser capaz de extrair um sinal minúsculo de dados ruidoso é parte do benefício de grandes análise de dados, mas você precisa estar ciente de que o sinal pode ser de fato pequena.
Ele pode ser em tempo real. Em muitos casos, você estará tentando analisar fluxos de dados em tempo real.
governança de dados Big vai ser uma parte importante da equação de análise. Debaixo de análise de negócios, melhorias precisam ser feitas para soluções de governança para assegurar a veracidade proveniente das novas fontes de dados, especialmente no que está sendo combinado com existente dados armazenados em um armazém confiável. soluções de segurança e privacidade de dados também precisa ser melhorada para suportar a gestão / governar grandes dados armazenados dentro de novas tecnologias.
Analíticos grandes algoritmos de dados
Quando você está considerando grandes análise de dados, você precisa estar ciente de que quando você expandir para além do desktop, os algoritmos que você usa com freqüência precisam ser reformulado, a alteração do código interno sem afectar o seu funcionamento externo. A beleza de uma infra-estrutura de dados grande é que você pode executar um modelo que costumava levar horas ou dias em minutos.
Isso permite que você iterar sobre o modelo de centenas de vezes. No entanto, se você estiver executando uma regressão em um bilhão de linhas de dados em um ambiente distribuído, você precisa considerar as necessidades de recursos relacionados com o volume de dados e sua localização no cluster. Seus algoritmos precisam ser dados conscientes.
Além disso, os vendedores estão começando a oferecer novas análises destinados a ser colocados perto das grandes fontes de dados para analisar os dados no lugar. Esta abordagem de análise de execução mais perto das fontes de dados minimiza a quantidade de dados armazenados por mantendo apenas os dados de alto valor. É também permite analisar os dados, mais cedo, o que é fundamental para a tomada de decisão em tempo real.
Claro, a análise continuará a evoluir. Por exemplo, você pode precisar de recursos de visualização em tempo real para exibir dados em tempo real que está mudando continuamente. Como você praticamente traçar um bilhão de pontos em um gráfico de pontos? Ou, como você trabalhar com os algoritmos de previsão para que eles executam rápido o suficiente e análise profunda o suficiente para utilizar, um conjunto de dados complexos, sempre em expansão? Esta é uma área de pesquisa ativa.
apoio Big infra-estrutura de dados
Basta dizer que, se você está procurando uma plataforma, ele precisa alcançar o seguinte:
Integrar as tecnologias: A infra-estrutura precisa integrar novas tecnologias de big data com as tecnologias tradicionais de ser capaz de processar todos os tipos de dados grandes e torná-lo consumível por análises tradicionais.
Armazenar grandes quantidades de dados díspares: Um sistema Hadoop endureceu a empresa pode ser necessário que pode processar / store / gerenciar grandes quantidades de dados em repouso, se está estruturada, semi-estruturados ou não estruturados.
Dados do processo em movimento: A capacidade de computação fluxo pode ser necessário para processar dados em movimento que é continuamente gerados por sensores, dispositivos inteligentes, vídeo, áudio, e os registros para apoiar a tomada de decisão em tempo real.
Data Warehouse: Você pode precisar de uma solução otimizada para cargas de trabalho analíticas operacionais ou profundas para armazenar e gerir as quantidades crescentes de dados confiáveis.
E, claro, você precisa a capacidade de integrar os dados que você já tem no local, juntamente com os resultados da análise de dados grande.