Como Priorizar Big Data Quality
Obtendo a perspectiva correta sobre a qualidade dos dados pode ser muito desafiador no mundo do big data. Com a maioria das fontes de dados grandes, é preciso assumir que você está trabalhando com dados que não está limpo. Na verdade, a esmagadora abundância de dados aparentemente aleatórios e desconexos em fluxos de dados de mídia social é uma das coisas que o tornam tão útil para as empresas.
Você começar por pesquisar petabytes de dados sem saber o que você pode encontrar depois de você começar a procurar padrões nos dados. Você precisa aceitar o fato de que um monte de ruído vai existir nos dados. É somente através de pesquisa e correspondência de padrão que você será capaz de encontrar algumas faíscas de verdade no meio de alguns dados muito sujos.
Claro, algumas fontes de dados grandes, tais como dados de etiquetas de RFID ou sensores têm regras mais bem estabelecida do que os dados de mídia social. Dados do sensor deve ser razoavelmente limpo, embora você pode esperar encontrar alguns erros. É sempre a sua responsabilidade ao analisar grandes quantidades de dados para planejar para o nível de que os dados de qualidade. Você deve seguir uma abordagem em duas fases para a qualidade dos dados:
Fase 1: Procure padrões nos dados grandes, sem preocupação com a qualidade dos dados.
Fase 2: Depois de localizar seus padrões e estabelecer resultados que são importantes para o negócio, aplicar os mesmos padrões de qualidade de dados que se aplicam a suas fontes de dados tradicionais. Você quer evitar recolha e gestão de grandes dados que não é importante para o negócio e vai potencialmente corruptos outros elementos de dados em Hadoop ou outras plataformas de dados grandes.
Como você começar a incorporar os resultados de sua análise de dados grande em seu processo de negócio, reconhecer que dados de alta qualidade é essencial para uma empresa para tomar decisões de negócios de som. Isto é verdadeiro para grandes volumes de dados, bem como de dados tradicionais.
A qualidade dos dados refere-se a características sobre os dados, incluindo consistência, precisão, confiabilidade, integridade, oportunidade, razoabilidade e validade. software de qualidade de dados garante que os elementos de dados são representados da mesma forma em diferentes armazenamentos de dados ou sistemas para aumentar a consistência dos dados.
Por exemplo, um armazenamento de dados pode usar duas linhas para o endereço de um cliente e outro armazenamento de dados pode usar uma linha. Esta diferença na maneira como os dados são representados pode resultar em informações imprecisas sobre clientes, tais como um cliente identificado como sendo dois clientes diferentes.
Uma empresa pode usar dezenas de variações de seu nome da empresa quando compra produtos. software de qualidade de dados pode ser usado para identificar todas as variações do nome da empresa em suas diferentes armazenamentos de dados e garantir que você sabe tudo o que compras este cliente de seu negócio.
Este processo é chamado fornecendo uma visão única do cliente ou produto. software de qualidade de dados corresponde dados entre sistemas diferentes e limpa ou remove dados redundantes. O processo de qualidade de dados fornece o negócio com a informação que é mais fácil de usar, interpretar e entender.
Perfil de Dados ferramentas são usadas no processo de qualidade de dados para ajudá-lo a entender o conteúdo, estrutura e condição de seus dados. Eles recolher informações sobre as características dos dados em um banco de dados ou outro armazenamento de dados para iniciar o processo de transformar os dados em uma forma mais confiável. As ferramentas de análise de dados para identificar erros e inconsistências.
Eles podem fazer ajustes para esses problemas e corrigir erros. As ferramentas de verificar a existência de valores aceitáveis, padrões e faixas e ajudar a identificar dados sobrepostos. O processo de perfil de dados, por exemplo, faz uma verificação para ver se os dados estão a ser esperados ou alfa numérico. As ferramentas também verificar se há dependências ou para ver como os dados refere-se a dados de outros bancos de dados.
ferramentas de criação de perfil de dados para dados de grandes têm uma função semelhante a ferramentas de criação de perfil de dados para dados tradicionais. ferramentas de dados de perfis para Hadoop irá fornecer-lhe informações importantes sobre os dados em clusters Hadoop. Estas ferramentas podem ser usadas para procurar correspondências e eliminação de duplicações. Como resultado, você pode garantir que seus dados grande é consistente. ferramentas Hadoop como HiveQL e porco Latina pode ser usado para o processo de transformação.