Serviços de middleware: Mapeamento de Dados e Transformação
Esta figura mostra um ambiente no qual os dados estão a ser extraída a partir de três fontes diferentes de dados para a inclusão em um armazém de dados, e cada uma das três fontes é numa plataforma diferente. Em algum ponto do processo de middleware, esses extratos QA'd devem ser reunidos para um processo de mapeamento e transformação combinados.
O serviço de mapeamento e transformação lida com problemas de armazenamento de dados clássicos. Suponha que uma fonte de dados armazena os clientes usando um de cinco caracteres ID do cliente, e uma outra fonte usa um identificador cliente numérico de seis dígitos.
Para permitir comparações e outro processamento do data warehouse, você precisa de um método comum de identificação do cliente: Um dos esquemas de identificação deve ser convertido para o outro, ou talvez um terceiro sistema de identificação, neutra, dependendo das características do meio ambiente.
Além de lidar com incompatibilidades entre sistemas, transformações adicionais podem incluir
Resumo de dados: Um resumo pode ser realizada no início do processo, antes do movimento entre sistemas, dependendo das peculiaridades de seu ambiente específico de data warehousing.
inclusão seletiva de dados: Você pode incluir registros de uma única fonte de dados, por exemplo, se você receber um registro comparável a partir de outro extracto. Você não sabe, até que convergem todas as contribuições da fonte de dados, como as regras de inclusão seletivos são aplicadas.
convergência Dados: Certos elementos de uma fonte de dados são combinados com elementos de outra fonte para criar um registro unificado para cada cliente, produto, contrato ou qualquer tipo de dados que você está lidando.
O principal ponto a lembrar sobre o serviço de mapeamento e transformação é que você deve ter, na sua conclusão, um conjunto unificado de dados que está pronto para carregar no armazém de dados - assim que completar mais alguns passos.
Em ambientes de armazenamento de dados complexos, você pode querer considerar vários processos de transformação. Como mostrado nesta figura, por exemplo, extractos de dados convergem em vários níveis diferentes de transformação antes de se mudar mais para baixo o pipeline middleware, permitindo-lhe aplicar mais potência para o processo de transformação, usando vários servidores no início do fluxo.