Os Fundamentos da Integração de Dados Big
Os elementos fundamentais da plataforma de dados grande gerir dados de novas maneiras, em comparação com a base de dados relacional tradicional. Isto é devido a necessidade de ter a escalabilidade e alto desempenho necessário para gerenciar dados estruturados e não estruturados.
Componentes do ecossistema Big Data variando de Hadoop para NoSQL DB, MongoDB, Cassandra e HBase todos têm a sua própria abordagem para extrair e carregar dados. Como resultado, as equipes podem precisar desenvolver novas habilidades para gerenciar o processo de integração entre essas plataformas. No entanto, muitas das melhores práticas de gestão de dados da sua empresa se tornará ainda mais importante como você se move para o mundo do big data.
Enquanto big data introduz um novo nível de complexidade de integração, os princípios fundamentais básicos ainda se aplicam. Seu objetivo de negócio precisa ser focada no fornecimento de qualidade e de dados confiáveis para a organização no momento certo e no contexto certo.
Para garantir esta confiança, você precisa estabelecer regras comuns para a qualidade dos dados, com ênfase na precisão e integridade de dados. Além disso, você precisa de uma abordagem abrangente para o desenvolvimento de metadados corporativos, mantendo o controle de linhagem de dados e governança para apoiar a integração dos seus dados.
Ao mesmo tempo, as ferramentas tradicionais para a integração de dados estão a evoluir para lidar com a crescente variedade de dados não estruturados e o crescente volume e velocidade de dados grandes. Embora as formas tradicionais de integração de assumir novos significados em um mundo de dados grande, as tecnologias de integração precisa de uma plataforma comum que suporta a qualidade dos dados e perfil.
Para tomar decisões de negócios de som com base na análise de dados grande, esta informação tem de ser confiável e compreendido em todos os níveis da organização. Embora provavelmente não será custo ou tempo efetivo a ser excessivamente preocupados com a qualidade dos dados na fase exploratória de uma análise de dados grande, eventualmente, qualidade e confiança deve desempenhar um papel se os resultados devem ser incorporados no processo de negócios.
A informação tem de ser entregue ao negócio de uma forma confiável, controlada, consistente e flexível em toda a empresa, independentemente dos requisitos específicos de sistemas ou aplicações individuais. Para alcançar este objetivo, três princípios básicos se aplicam:
Você deve criar um entendimento comum das definições de dados. Nas fases iniciais da análise de dados grande, você não são susceptíveis de ter o mesmo nível de controle sobre definições de dados como você fazer com seus dados operacionais. No entanto, depois de ter identificado os padrões que são mais relevantes para o seu negócio, você precisa da capacidade de mapear elementos de dados a uma definição comum.
Você deve desenvolver um conjunto de serviços de dados para qualificar os dados e torná-lo consistente e, em última análise confiável. Quando as fontes de dados não estruturados e grandes são integrados com dados operacionais estruturados, você precisa ter certeza de que os resultados serão significativos.
Você precisa de uma maneira simplificada de integrar as fontes de dados grandes e sistemas de registro. A fim de tomar boas decisões com base nos resultados de sua análise de dados grande, você precisa fornecer informações no momento certo e com o contexto certo. O seu processo de integração grande de dados deve assegurar a consistência e confiabilidade.
Para integrar dados em ambientes de aplicativos mistos, obter dados de um ambiente de dados (origem) para outro ambiente de dados (destino). Extrair, transformar e tecnologias (ETL) de carga têm sido usados para fazer isso em ambientes de data warehouse tradicionais. O papel de ETL está evoluindo para lidar com ambientes mais recentes de gerenciamento de dados, como Hadoop.
Em um ambiente de dados grande, você pode precisar de combinar ferramentas que suportam os processos de integração lote (usando ETL) com integração em tempo real e federação através de múltiplas fontes. Por exemplo, uma empresa farmacêutica pode precisar misturar dados armazenados em seu sistema Master Data Management (MDM) com fontes de dados grandes sobre os resultados médicos de uso de drogas ao cliente.
As empresas usam MDM para facilitar a coleta, agregação, consolidação e entrega de dados consistentes e confiáveis de uma maneira controlada em toda a empresa. Além disso, novas ferramentas como Sqoop e Scribe são utilizados para apoiar a integração de ambientes de dados grandes. Você também encontrará uma ênfase crescente sobre o uso de extrato, de carga, e transformar as tecnologias (ELT). Estas tecnologias são descritas a seguir.