Extração de Dados, movimento e carregamento por Data Warehouse de luxe
data warehouse implementações de luxo são grandes - e ficando cada vez maior o tempo todo. Implementações que usam centenas de gigabytes (um gigabyte equivale a 1 bilhão de bytes) e até mesmo terabytes (1 trilhão de bytes) são cada vez mais comuns. Para gerenciar esse volume de dados e acesso de usuário, você precisa de um servidor muito robusto e banco de dados.
Prepare-se para o desafio! Com um Lite armazém de dados, normalmente você pode lidar com o movimento da fonte ao armazém de dados de uma maneira tecnologia de baixo simples, - mas com o luxo de data warehouse, que está agora a entrar na zona de dificuldade, onde os projetos de armazenamento de dados muitas satisfazer as suas Waterloo.
É provável que você enfrentar dificuldades neste domínio por várias razões:
Você está lidando com muitas fontes de dados diferentes, alguns dos quais pode conter dados sobrepostos. Por exemplo, as informações dos fornecedores podem vir de dois sistemas de aquisição diferentes, e alguns de seus fornecedores têm entradas em ambos os sistemas.
Você provavelmente vai correr em diferentes conjuntos de identificadores que você tem que convergem (por exemplo, seis caracteres alfanuméricos que são identificados como o SUPPLIER_ID em um dos sistemas e um número inteiro único conhecido como SUP_NUM no outro).
Se o seu armazém de dados é grande (com mais de cerca de 250 gigabytes), é provável que você experimentar dificuldades em extrair, mover e carregar as suas janelas de lote. janelas de lotes, os prazos em que as atualizações são feitas no armazém, são complicadas pelo número de fontes de dados que você tem que lidar.
As chances de ter uma extração confuso-up, movimento, transformação e processo de carregamento é exponencialmente relacionada com o número de elementos de dados a ser carregado para o data warehouse.
Se você pudesse atribuir algum fator de dificuldade (um inteiro, por exemplo) para o processo de obtenção de dados para o armazém, as seguintes medidas seria verdadeiro: Você tem n elementos de dados que você deseja incluir no armazém de dados com um fator de dificuldade de x. Se você tem agora 2n elementos de dados, o seu fator de dificuldade não é 2x- ao invés, é x quadrado.
Para tornar este fator de dificuldade mais fácil de entender, atribuir alguns números para n e x. Dizer que seu data warehouse tem 100 elementos (N) eo fator de dificuldade (x) é 5. Se você dobrar o número de elementos (n = 200), o fator de dificuldade é de 25 (5 ao quadrado), e não 10 (5 x 2).
O processo de lidar com tantas fontes de dados, todos se dirigiu para um local (o data warehouse deluxe), tem todos os elementos de muitos cozinheiros na cozinha, ou o que quer que ditado é.
Para fazer a extração, movimento, transformação e processo de carregamento sem problemas, você provavelmente terá que lidar com muitos proprietários de diferentes aplicativos, detentores oficiais do banco de dados e outras pessoas de uma variedade de diferentes organizações, os quais têm de cooperar como eles és parte de uma orquestra sinfônica profissional.
A realidade, porém, é que eles executam mais como um grupo de alunos do jardim de infância que cada pegar um instrumento musical do bin de brinquedo e é dito, # 147 Agora tocar alguma coisa! # 148- Embora o processo não está necessariamente condenado ao fracasso, esperar um número de iterações até que você pode obter o luxo de data warehouse carregado apenas para a direita.
A deluxe data warehouse pode ter três camadas (como um Lite armazém de dados), salvo com mais fontes de dados e, talvez, mais do que um tipo de ferramenta de usuário que acessa o armazém. Mas a arquitetura para um luxuoso armazém de dados provavelmente se parece mais com o que é mostrado na figura, com muitos pontos de coleta diferentes para dados.
Além de outros necessários Número 147-way estações # 148- para o seu ambiente particular, o seu ambiente pode ter os seguintes elementos:
data mart: Recebe subconjuntos de informações a partir do luxo de data warehouse e serve como o ponto de acesso principal para os usuários.
Interim estação de transformação: Uma área em que conjuntos de dados extraídos de algumas das fontes de sofrer algum tipo de processo de transformação antes de passar pelo pipeline para banco de dados do armazém.
estação de garantia de qualidade: Uma área em que grupos de dados submetidos a controlos de garantia da qualidade intensiva antes de deixá-los passar para o data warehouse.