O Papel do ETL tradicional em Big Data
ferramentas de ETL combinam três funções importantes (Extract, Transform, Load) necessárias para obter dados de um ambiente de dados grande e colocá-lo em outro ambiente de dados. Tradicionalmente, ETL tem sido utilizado com processamento em lote em ambientes de data warehouse. Os armazéns de dados fornecer aos usuários de negócios com uma maneira de consolidar as informações para analisar e relatar dados relevantes para o seu foco de negócios. ferramentas de ETL são usados para transformar dados em formato exigido pela data warehouses.
A transformação é realmente feito em uma localização intermédia antes dos dados serem carregados no armazém de dados. Muitos fornecedores de software, incluindo a IBM, Informatica, Pervasive, Talend e Pentaho, fornecer ferramentas de software ETL.
ETL fornece a infra-estrutura subjacente para a integração através da realização de três importantes funções:
Extrair: Ler dados do banco de dados de origem.
Transformar: Converter o formato dos dados extraídos de modo que está de acordo com os requisitos da base de dados destino. Transformação é feito usando regras ou a fusão de dados com outros dados.
Carga: Gravar dados no banco de dados destino.
No entanto, ETL está evoluindo para apoiar a integração através de muito mais do que armazéns de dados tradicionais. ETL pode apoiar a integração entre os sistemas transacionais, armazenamentos de dados operacionais, plataformas de BI, hubs MDM, a nuvem e plataformas Hadoop. fornecedores de software ETL estão estendendo suas soluções para fornecer a extração grande de dados, transformação e carregamento entre Hadoop e plataformas de gerenciamento de dados tradicionais.
ferramentas de ETL e software para outros processos de integração de dados, como limpeza de dados, profiling e auditoria todos os trabalhos sobre diferentes aspectos dos dados para garantir que os dados serão considerados dignos de confiança. ferramentas de ETL integração com ferramentas de qualidade de dados, e muitos incorporar ferramentas para limpeza de dados, mapeamento de dados e identificação de linhagem de dados. Com ETL, você só extrair os dados que você precisa para a integração.
ferramentas de ETL são necessários para o carregamento e conversão de dados estruturados e não estruturados em Hadoop. ferramentas de ETL avançados podem ler e escrever vários arquivos em paralelo de e para o Hadoop para simplificar a forma como os dados são mesclados em um processo de transformação comum. Algumas soluções incorporam bibliotecas de transformações ETL pré-construídos, tanto para os dados da transação e interação que são executados em Hadoop ou uma infra-estrutura de grade tradicional.
A transformação dos dados é o processo de mudança de formato de dados, de modo que ele pode ser utilizado por diferentes aplicações. Isso pode significar uma mudança do formato os dados são armazenados em no formato necessário pelo aplicativo que irá usar os dados. Este processo também inclui mapeamento instruções para que os aplicativos são contadas como obter os dados necessários para processar.
O processo de transformação de dados é feita muito mais complexo por causa do espantoso crescimento na quantidade de dados não estruturados. A aplicação de negócio, tais como gestão de relacionamento com o cliente tem requisitos específicos para como os dados devem ser armazenados. Os dados é provável que seja estruturada nas linhas organizadas e colunas de um banco de dados relacional. dados é semi-estruturado ou desestruturado se ele não seguir os requisitos de formato rígido.
A informação contida numa mensagem de e-mail é considerado não-estruturados, por exemplo. Algumas das informações mais importantes de uma empresa é em formas não estruturados e semi-estruturados, como documentos, mensagens de correio electrónico, formatos de mensagens complexas, interações de suporte ao cliente, transações e informações provenientes de pacotes de aplicações como ERP e CRM.
ferramentas de transformação de dados não são projetados para funcionar bem com dados não estruturados. Como resultado, as empresas que necessitam de incorporar informações não estruturadas na sua tomada de decisão de processos de negócios têm sido confrontados com uma quantidade significativa de codificação manual para realizar a integração de dados necessário.
Dado o crescimento ea importância de dados não estruturados para a tomada de decisões, soluções ETL dos principais fornecedores estão começando a oferecer abordagens padronizadas para transformar dados não estruturados de modo que possa ser mais facilmente integrados com dados estruturados operacionais.