Como definir a Fundação de arquitectura para Big Data

É importante estabelecer uma base arquitetônica forte se você quiser ser bem sucedido com os dados grandes. Além de suportar os requisitos funcionais, é importante apoiar o desempenho necessário. As suas necessidades vai depender da natureza da análise estiver a suportar. Você vai precisar a quantidade certa de poder computacional e velocidade.

Sua arquitetura também tem que ter a quantidade certa de redundância de modo que você está protegido de latência imprevista e tempo de inatividade.

Comece perguntando a si mesmo as seguintes perguntas:

  • Quantos dados serão a sua organização precisa para gerenciar hoje e no futuro?

  • Como, muitas vezes, sua organização precisa para gerenciar dados em tempo real ou quase em tempo real?

  • Quanto risco a sua organização pode pagar? É a sua indústria sujeita a estrita segurança, conformidade e requisitos de governança?

  • Quão importante é a velocidade com sua necessidade para gerenciar dados?

  • Como certas ou precisa que os dados precisam ser?

    image0.jpg

Interfaces e feeds para big data

Para entender como os dados big funciona no mundo real, é importante começar por compreender a necessidade de interfaces e feeds. Na verdade, o que faz grande big data é o fato de que ele se baseia em pegar grandes quantidades de dados a partir de muitas fontes.

Portanto, as interfaces de programação de aplicativos (APIs) abertas será fundamental para qualquer arquitetura de dados grande. Além disso, tenha em mente que existem interfaces de em todos os níveis e entre todas as camadas da pilha. Sem serviços de integração, big data não pode acontecer.

infra-estrutura física de dados grande redundante

A infra-estrutura física de apoio é fundamental para o funcionamento e escalabilidade de uma arquitetura de dados grande. Na verdade, sem a disponibilidade de infra-estruturas físicas robustas, grandes dados provavelmente não teria surgido como uma tendência tão importante. Para suportar um volume imprevisto ou imprevisível dos dados, uma infra-estrutura física para big data tem que ser diferente do que para os dados tradicionais.

A infra-estrutura física baseia-se num modelo de computação distribuída. Isto significa que os dados podem ser fisicamente armazenados em muitos locais diferentes e podem ser ligados entre si através de redes, a utilização de um sistema de arquivos distribuído, e várias grandes ferramentas analíticas de dados e aplicações.

A redundância é importante porque você está lidando com tantos dados de tantas fontes diferentes. Redundância vem em muitas formas. Se a sua empresa criou uma nuvem privada, você vai querer ter redundância incorporada dentro do ambiente privado para que ele possa escalar para suportar mudança cargas de trabalho.

Se a sua empresa pretende conter o crescimento interno de TI, pode usar serviços de nuvem externos para aumentar seus recursos internos. Em alguns casos, essa redundância pode vir na forma de um Software como uma oferta de serviço (SaaS) que permite às empresas fazer a análise de dados sofisticada como um serviço. A abordagem SaaS oferece custos mais baixos, inicialização mais rápida, ea evolução contínua da tecnologia subjacente.

infraestrutura de segurança de Big Data

A análise de big data mais importante se torna para as empresas, o mais importante será assegurar que os dados. Por exemplo, se você é uma empresa de saúde, você provavelmente vai querer usar aplicações de dados grandes para determinar mudanças na demografia ou mudanças nas necessidades dos pacientes. Estes dados sobre os seus constituintes precisa ser protegido tanto para atender aos requisitos de conformidade e para proteger a privacidade dos pacientes.

Você terá que ter em conta quem tem permissão para ver os dados e em que circunstâncias eles estão autorizados a fazê-lo. Você precisará ser capaz de verificar a identidade dos usuários, bem como proteger a identidade dos pacientes.

fontes de dados grandes operacionais

É importante entender que você tem que incorporar todas as fontes de dados que lhe dão uma imagem completa do seu negócio e ver como os impactos de dados a maneira de operar o seu negócio. Como o mundo muda, é importante compreender que os dados operacionais tem agora a abranger um conjunto mais amplo de fontes de dados, incluindo as fontes não estruturadas, como os dados de mídia social em todas as suas formas.

Você encontrar novas abordagens emergentes para a gestão de dados do mundo de dados grande, incluindo documentos, gráfico, colunar, e arquiteturas de banco de dados geoespaciais. Colectivamente, estes são referidos como NoSQL, ou não só SQL, bancos de dados. Em essência, você precisa mapear as arquiteturas de dados para os tipos de transações.

Fazer isso ajudará a garantir a certo dados estão disponíveis quando você precisar dele. Você também precisa de arquiteturas de dados que suportam o conteúdo não estruturado complexo. Você precisa incluir ambos os bancos de dados relacionais e bancos de dados não-relacionais em sua abordagem para o aproveitamento de dados grandes. Também é necessário incluir fontes de dados não estruturados, tais como sistemas de gerenciamento de conteúdo, de modo que você pode chegar mais perto que de 360 ​​graus vista de negócios.

Todas estas fontes de dados operacionais têm várias características em comum:

  • Eles representam sistemas de registro que controlam os dados críticos necessários em tempo real, o funcionamento do dia-a-dia do negócio.

  • Eles são continuamente atualizados com base em transações acontecendo dentro de unidades de negócios e da web.

  • Para essas fontes para fornecer uma representação exata do negócio, eles devem misturar dados estruturados e não estruturados.

  • Estes sistemas também deve ser capaz de escalar para suportar milhares de usuários em uma base consistente. Estes podem incluir sistemas transacionais e-commerce, sistemas de gestão de relacionamento com clientes, ou aplicações de call center.

menu