Como extrair, transformar e carregar dados para Análise Preditiva

Depois ele é inicialmente recolhidos, os dados são geralmente de forma dispersa declaração que reside em vários sistemas ou bases de dados e deve ser analisado antes de prever qualquer coisa. Antes que você possa usá-lo para um modelo de análise preditiva, você tem de consolidar-lo em um só lugar. Além disso, você não quer trabalhar com dados que reside em sistemas operacionais - que está pedindo para ter problemas.

Em vez disso, coloque uma parte dele em algum lugar onde você pode trabalhar nele livremente sem afetar as operações. ETL (extração, transformação e carga) é o processo que atinge esse estado desejável.

Muitas organizações têm múltiplos databases- seu modelo preditivo provavelmente irá utilizar os dados de todos eles. ETL é o processo que recolhe todas as informações necessárias e coloca-lo em um ambiente separado, onde você pode executar sua análise.

ETL não é, contudo, uma vez-e-para-todos Operation geralmente é um processo contínuo que atualiza os dados ea mantém até à data. Certifique-se de executar seus processos de ETL durante a noite ou em outros momentos quando a carga sobre o sistema operacional é baixo.

  • O passo de extracção recolhe os dados desejados em sua forma bruta a partir de sistemas operacionais.

  • O passo de transformação faz com que os dados recolhidos pronto para ser usado em seu modelo preditivo - fundi-la, gerando os atributos derivados desejados, e colocando os dados transformados no formato adequado às suas necessidades de negócios.

  • O passo de carregamento coloca os dados no seu local designado, onde você pode executar a sua análise sobre ele - por exemplo, em um data mart, data warehouse, ou outro banco de dados.

Você deve seguir uma abordagem sistemática para construir seus processos de ETL para cumprir os requisitos de negócio. É uma boa prática para manter uma cópia dos dados originais em uma área separada para que você sempre pode voltar a ele no caso de um erro interrompe a transformação ou os passos de carregamento dos processos.

Seu processo de ETL deve incorporar modularidade - separando as tarefas e realizar o trabalho em etapas. Esta abordagem tem vantagens no caso de você deseja reprocessar ou recarregar os dados, ou se você quiser usar alguns desses dados para uma análise diferente ou para construir diferentes modelos preditivos. O design do seu ETL deve ser capaz de acomodar grandes mudanças nos requisitos de negócios - com mudanças mínimas para o seu processo de ETL.

menu