Noções básicas de estruturados e não estruturados de dados em Análise Preditiva

Os dados contidos nas bases de dados, documentos, e-mails e outros arquivos de dados para análise preditiva podem ser classificados como dados estruturados ou não estruturados. estruturado dados é bem organizada, segue uma ordem consistente, é relativamente fácil de pesquisar e de consulta, e pode ser facilmente acedido e compreendidos por uma pessoa ou um programa de computador.

Um exemplo clássico de dados estruturados é uma planilha Excel com colunas rotuladas. Tais dados estruturados é cabeçalhos de coluna consistent- - geralmente breves, descrições precisas sobre o conteúdo em cada coluna - dizer exatamente que tipo de conteúdo que esperar.

Os dados estruturados é normalmente armazenado em esquemas bem definidos, tais como bancos de dados. É geralmente tabular, com colunas e linhas que definem claramente seus atributos.

Unstructured de dados, por outro lado, tende a ser de forma livre, não-tabular, dispersos, e não é facilmente retrievable- tais dados exige uma intervenção deliberada de fazer sentido. e-mails diversos, documentos, páginas da Web e arquivos (se o texto, áudio e / ou vídeo) em locais dispersos são exemplos de dados não estruturados.

É difícil categorizar o conteúdo de dados não estruturados. Ela tende a ser principalmente texto, geralmente é criado em uma mistura de estilos de forma livre, e encontrar todos os atributos que você pode usar para descrever ou grupo que não é tarefa fácil.

O conteúdo dos dados não estruturados é difícil trabalhar com ou fazer sentido de forma programática. Os programas de computador não pode analisar ou gerar relatórios sobre esses dados, simplesmente porque ela não tem estrutura, não tem nenhuma característica dominante subjacente, e os itens individuais de dados não têm um terreno comum.

Em geral, há uma percentagem mais elevada de dados não estruturados do que os dados estruturados no mundo. dados não estruturados requer mais trabalho para torná-lo útil, por isso, recebe mais atenção -, portanto, tende a consumir mais tempo.

Não subestime a importância de dados estruturados e o poder que traz para sua análise. É muito mais eficiente para analisar dados estruturados do que para analisar dados não estruturados. dados não estruturados também pode ser caro para pré-processamento para a análise de como você está construindo um projeto de análise preditiva. A seleção de dados relevantes, a sua limpeza e, em transformações subsequentes pode ser demorado e tedioso.

Os dados resultantes recém-organizadas a partir desses passos de pré-processamento necessárias, em seguida, pode ser usado num modelo de análise preditiva. A transformação de atacado de dados não estruturados no entanto, pode ter que esperar até que você tenha o seu modelo de análise preditiva em funcionamento.

mineração de dados e texto de análise duas abordagens para documentos de texto estruturação, ligando o seu conteúdo, agrupamento e resumindo os seus dados, e descobrindo padrões em que os dados. Ambas as disciplinas proporcionam um quadro rico de algoritmos e técnicas para minar o texto espalhados por um mar de documentos.

É importante notar também que as plataformas de motores de busca fornecer ferramentas prontamente disponíveis para a indexação de dados e torná-lo pesquisável.

Vamos comparar os dados estruturados e não estruturados.

CaracterísticasestruturadoUnstructured
AssociaçãoOrganizadoEspalhadas e dispersas
Aparênciaformalmente definidaForma livre
AcessibilidadeDe fácil acesso e consultaDe difícil acesso e consulta
Disponibilidadepercentualmente menorpercentualmente maior
AnáliseEficiente para analisarpré-processamento adicional é necessária

dados não estruturados não falta completamente estrutura - você apenas tem que ferret para fora. Mesmo o texto dentro de arquivos digitais ainda tem alguma estrutura associada, muitas vezes aparecendo nos metadados - por exemplo, documentar títulos, data os arquivos foram modificados pela última vez, e os nomes dos seus autores.

A mesma coisa se aplica para os e-mails: O conteúdo pode ser desestruturado, mas dados estruturados é associado com eles - por exemplo, a data ea hora em que foram enviados, os nomes de seus remetentes e destinatários, se eles contêm anexos.

A linha de separação entre os dois tipos de dados nem sempre é clara. Em geral, você sempre pode encontrar alguns atributos de dados não estruturados que podem ser considerados dados estruturados. Se essa estrutura é o reflexo do conteúdo desses dados - ou úteis na análise de dados - não é clara na melhor das hipóteses.

Para essa matéria, dados estruturados podem armazenar dados não estruturados dentro dele. Em um formulário web, por exemplo, os usuários podem ser convidados a dar feedback sobre um produto, escolhendo uma resposta de escolha múltipla - mas também presenteado com uma caixa de comentário onde eles podem fornecer feedback adicional.

As respostas de múltiplas escolhas são structured- campo de comentário não é estruturado devido à sua natureza de forma livre. Tais casos são melhor entendidas como uma mistura de dados estruturados e não estruturados. A maior parte dos dados é um composto de ambas.

Para um projeto de análise preditiva bem sucedido, tanto os seus dados estruturados e não estruturados devem ser combinados em um formato lógico que pode ser analisado.

menu