Transformação de dados no Hadoop
A ideia de motores de ETL inspirados Hadoop ganhou muita tração nos últimos anos. Afinal de contas, o Hadoop é um armazenamento de dados flexível e plataforma de processamento que pode suportar enormes quantidades de dados e operações sobre esses dados. Ao mesmo tempo, é tolerante a falhas, e oferece a oportunidade de redução de custos de capital e de software.
Apesar da popularidade do Hadoop como um motor de ETL, no entanto, muitas pessoas (incluindo uma empresa famosa de analistas) não recomendo Hadoop como a única peça de tecnologia para sua estratégia de ETL. Esta é em grande parte porque o desenvolvimento de fluxos de ETL requer uma grande quantidade de conhecimentos sobre os sistemas da sua organização existentes banco de dados, a natureza dos dados em si, bem como os relatórios e aplicativos dependentes dele.
Em outras palavras, os DBAs, desenvolvedores e arquitetos em seu departamento de TI seria necessário para tornar-se bastante familiarizado com Hadoop para implementar os fluxos de ETL necessários. Por exemplo, um monte de codificação manual intensivo com porco, colmeia, ou mesmo MapReduce pode ser necessário para criar mesmo o mais simples dos fluxos de dados - o que coloca sua empresa no gancho para essas habilidades se seguir este caminho.
Você tem que codificar elementos, tais como a depuração paralela, serviços de gestão de aplicações (como apontador de verificação e erro e manipulação de eventos). Além disso, considere os requisitos empresariais, tais como glossarization e ser capaz de mostrar a linhagem de seus dados.
Existem requisitos regulamentares para relatórios padrão muitos da indústria, onde linhagem de dados é necessário- a organização relatora deve ser capaz de mostrar onde os pontos de dados no relatório vêm, como os dados tem de você, eo que tem sido feito para os dados.
Mesmo para sistemas de banco de dados relacional, ETL é complexa o suficiente que existem produtos populares especializadas que fornecem interfaces para o gerenciamento e desenvolvimento de fluxos de ETL. Alguns desses produtos agora ajudar na ETL baseada em Hadoop e outras desenvolvimento baseado em Hadoop. No entanto, dependendo de suas necessidades, você pode precisar de escrever um pouco do seu próprio código para apoiar a sua lógica de transformação.