Características de Análise de Dados Big
análise de big data tem obtido um monte de hype recentemente, e por boas razões. Você precisa saber as características de análise de dados grande se você quer ser uma parte deste movimento. As empresas sabem que algo está lá fora, mas até recentemente, não têm sido capazes de mina dele. Este empurrando o envelope na análise é um aspecto interessante do grande movimento de análise de dados.
As empresas estão animado para ser capaz de acessar e analisar dados que tenho coletado ou deseja ter uma visão a partir, mas não têm sido capazes de gerenciar ou analisar de forma eficaz. Ele pode envolver a visualização de grandes quantidades de dados díspares, ou pode envolver avançado analisados fluindo em você em tempo real. É evolutiva em alguns aspectos e revolucionário em outros.
Então, o que é diferente quando a sua empresa está empurrando o envelope com a análise de dados grande? A análise de dados de grande infra-estrutura de suporte é diferente e algoritmos foram alterados para ser infra-estrutura ciente.
análise de dados Big devem ser vistos de duas perspectivas:
orientada para a decisão
Ação orientada
análise orientada a decisão é mais semelhante à inteligência de negócios tradicionais. Olhe para subconjuntos seletivos e representações de fontes de dados maiores e tentar aplicar os resultados para o processo de tomada de decisões empresariais. Certamente estas decisões pode resultar em algum tipo de ação ou mudança de processo, mas o objetivo da análise é aumentar a tomada de decisão.
análise de orientação para a acção é usada para resposta rápida, quando surge um padrão ou tipos específicos de dados são detectados e é necessária uma acção. Aproveitando-se de grandes dados através da análise e causando mudanças de comportamento pró-ativas ou reativas oferecem um grande potencial para early adopters.
Encontrar e utilizando dados grandes através da criação de aplicações de análise pode ser a chave para extrair valor, mais cedo ou mais tarde. Para realizar essa tarefa, é mais eficaz para construir esses aplicativos personalizados a partir do zero ou por plataformas e / ou componentes aproveitando.
Em primeiro lugar, olhar para algumas das características adicionais de análise de dados grande que o tornam diferente de tipos tradicionais de análise de lado a partir dos três Vs do volume, velocidade e variedade:
Pode ser programática. Uma das maiores mudanças na análise é que no passado você estava lidando com conjuntos de dados que você pode carregar manualmente em um aplicativo e explorar. Com a análise de dados grande, você pode ser confrontado com uma situação em que você pode começar com dados brutos que muitas vezes precisa ser tratada programaticamente para fazer qualquer tipo de exploração por causa da escala dos dados.
Pode ser dados conduzido. Enquanto os cientistas muitas dados usar uma abordagem orientada a hipótese de análise de dados (desenvolvimento de uma premissa e coletar dados para ver se essa premissa está correta), você também pode usar os dados para conduzir a análise - especialmente se você tiver recolhido enormes quantidades do mesmo . Por exemplo, você pode usar um algoritmo de aprendizado de máquina para fazer este tipo de análise sem hipótese.
Ele pode usar um monte de atributos. No passado, você poderia ter sido lidar com centenas de atributos ou características dessa fonte de dados. Agora você pode estar lidando com centenas de gigabytes de dados que consistem em milhares de atributos e milhões de observações. Tudo agora está acontecendo em uma escala maior.
Pode ser iterativo. Mais poder de computação significa que você pode iterar em seus modelos até chegar a eles como quiser. Aqui está um exemplo. Suponha que você está construindo um modelo que está a tentar encontrar os preditores para determinados comportamentos de clientes associados. Você pode começar a extração de uma amostra razoável de dados ou ligar para onde os dados residem. Você pode construir um modelo para testar uma hipótese.
Considerando que, no passado, você pode não ter tido essa quantidade de memória para fazer o seu modelo de trabalho de forma eficaz, você vai precisar de uma enorme quantidade de memória física para percorrer as iterações necessários para treinar o algoritmo. Também pode ser necessário o uso de técnicas de computação avançados, como processamento de linguagem natural ou redes neurais que evoluem automaticamente o modelo baseado na aprendizagem como mais dados são adicionados.
Pode ser rápido para obter os ciclos de computação que você precisa, aproveitando uma infraestrutura baseada em nuvem como um serviço. Com infraestrutura como serviço (IaaS) plataformas como Amazon Cloud Services (ACS), pode fornecer rapidamente um cluster de máquinas para ingerir grandes conjuntos de dados e analisá-los rapidamente.