Garantir a qualidade da entrada de dados externos
Quando você está criando um data warehouse e você determinar que dados externos que você precisa, você acabou de fazer um pedido (semelhante ao encomendar roupa ou uma cesta de frutas a partir de um site on-line). Depois de começar a receber dados através de uma corrente, transferência de arquivos, ou algum outro meio, é bom velejar - ou é?
E sobre a qualidade dos dados de entrada? É absolutamente necessário aplicar o mesmo conjunto de procedimentos de garantia de qualidade (QA) para fornecida externamente dados que você faz com os dados provenientes de seus próprios sistemas internos. Só porque você compra a informação no mercado aberto não garante que os dados são impecável.
Aplicar procedimentos de controle de qualidade para cada lote de entrada de dados, seguindo estes passos:
Descobrir se os dados de entrada tem valores de verificação anexados aos arquivos.
Alguns exemplos de valores de seleção são o número de registros em cada arquivo, o valor total de cada coluna numérica (dólares de vendas totais para todos os registros e total de unidades vendidas para todos os registros, por exemplo), e subconjuntos dos valores da coluna total (montantes totais de unidades de vendas e por estado, por exemplo).
Se os valores de verificação são fornecidos, eles devem ser armazenados e utilizados como parte dos procedimentos de carga de ponta-a-ponta. Ninguém deve atualizar oficialmente o conteúdo do armazém até que os totais de verificação de acordo com os cálculos que você fez quando você preparou os dados para o carregamento.
Se nenhum valor de verificação são fornecidos, solicitá-los.
Embora o pedido pode levar alguns ciclos (de algumas semanas ou meses, por exemplo) para preencher, qualquer provedor de dados interessados em fornecer um alto nível de serviço ao cliente leva este tipo de pedido a sério e se esforça para tornar as informações de controle requerido disponíveis.
Durante os procedimentos de carga, filtrar cada linha.
Certifique-se de que as seguintes condições forem verdadeiras:
Chaves (identificadores únicos para cada registro) estão corretos em todas as informações. Por exemplo, se cada registro no grupo SalesMasterRecord de dados deve ter exatamente 12 registros relacionados em SalesDetailRecord (um para cada mês), certifique-se de que todos os registros de detalhes estão presentes, comparando os valores da chave de registro.
Gamas de valores estão corretos. As vendas de produtos por mês, por exemplo, deve estar dentro de limites aceitáveis para esse tipo de produto (aviões são diferentes dos parafusos, por exemplo).
Faltando campos de informação (um provável - quase inevitável - ocorrência com os dados fornecidos externamente) não distorçam o significado dos dados de entrada.
Por exemplo, embora a ausência de peças suplementares de dados (definidos de acordo com as regras de negócio para a sua indústria ou organização específica) pode não ser muito grave um problema, se metade dos registros de entrada tem um espaço vazio onde UnitsSold, TotalSalesPrice, ou algum outro tipo crítica de informação deve ser, o valor dos dados é questionável.
Especialmente nas fases iniciais de aquisição de dados externos (os primeiros três ou quatro meses, por exemplo), usar suas ferramentas analíticas, como descrito no Capítulo 10, para realizar a análise da qualidade dos dados antes que os usuários usar as mesmas ferramentas para realizar a análise de negócios.
Procurar esquisitices, anomalias, resultados intrigantes, inconsistências aparentes paradoxos, e qualquer outra coisa que só olha estranho. Em seguida, perfurar até as raízes dos dados para verificar se a fonte da estranheza.
Lembre-se que você provavelmente está lidando com muitos milhões de linhas de dados de entrada: Além de não ser capaz de conferir pessoalmente a cada linha, você pode ter dificuldade para configurar a sua filtragem e QA verificação dos critérios para cada condição possível.
Qualquer pessoa que tenha feito nada com dados de origem fornecida externamente se deparou com todos os tipos de inconsistências estranhas e dados em falta na informação recebida. Ao colocar-se no lugar dos usuários e usando as mesmas ferramentas que eles usam, provavelmente você pode descobrir uma ou duas coisas que você pode corrigir, tornando seu data warehouse muito melhor loja de informações de negócios valiosas.