Como converter dados brutos em uma Matriz de Análise Preditiva

Antes que você possa extrair grupos de itens de dados similares do conjunto de dados para o seu projecto de análise preditiva, pode ser necessário para representar seus dados em um formato tabular conhecido como matriz de dados

. Este é um passo de pré-processamento que vem antes agrupamento de dados.

Como criar uma matriz de análise preditiva de termos em documentos

Suponha que o conjunto de dados que você está prestes a analisar está contida em um conjunto de documentos do Microsoft Word. A primeira coisa que você precisa fazer é converter o conjunto de documentos em uma matriz de dados. Várias ferramentas open-source comercial e pode lidar com essa tarefa, produzindo uma matriz, em que cada linha corresponde a um documento no conjunto de dados. Exemplos destas ferramentas incluem RapidMiner e pacotes text-mining R.

UMA documento é, em essência, um conjunto de palavras. UMA prazo é um conjunto de uma ou várias palavras.

Cada termo que contém um documento é mencionado uma vez ou várias vezes no mesmo documento. O número de vezes que um termo é mencionado num documento pode ser representado pela frequência do termo (TF), um valor numérico.

Construímos a matriz de termos no documento como se segue:

  • Os termos que aparecem em todos os documentos estão listados em toda a linha superior.

  • títulos de documentos estão listados na coluna mais à esquerda

  • Os números que aparecem no interior das células da matriz correspondem a frequência de cada prazo.

Por exemplo, documento A é representada como um conjunto de números (5,16,0,19,0,0.), Onde 5 corresponde ao número de vezes que o termo análise preditiva é repetido, 16 corresponde ao número de vezes Ciência da Computação é repetido, e assim por diante. Esta é a maneira mais simples para converter um conjunto de documentos em uma matriz.

Análise preditivaCiência da ComputaçãoAprendizagemClustering2013Antropologia
Um documento51601900
documento B862300
documento C052339
documento D1913467
documento E216160213
documento F130191642

Noções básicas de seleção prazo de análise preditiva

Um desafio em documentos de texto de agrupamento é determinar como selecionar as melhores condições para representar todos os documentos na coleção. Como é importante um termo está em uma coleção de documentos pode ser calculada de diferentes maneiras.

Se, por exemplo, você contar o número de vezes que um termo é repetido em um documento e comparar essa soma a frequência com que se repete em toda a coleção, você tem um senso de importância relativa do prazo para outros termos.

Baseando a importância relativa de um prazo sobre a sua frequência em uma coleção é muitas vezes conhecido como ponderação. O peso você atribui pode ser baseada em dois princípios:

  • Termos que aparecem várias vezes em um documento são favorecidos em detrimento de termos que aparecem somente uma vez.

  • Os termos que são usados ​​em relativamente poucos documentos são favorecidos sobre os termos que são mencionados em todos os documentos.

Se (por exemplo) o termo século é mencionado em todos os documentos em seu conjunto de dados, então você não pode considerar atribuindo-lhe peso suficiente para ter uma coluna própria na matriz.

Da mesma forma, se você está lidando com um conjunto de dados de usuários de uma rede social online, você pode facilmente converter esse conjunto de dados em uma matriz. IDs de usuário ou nomes ocupará o rows- as colunas irá listar características que melhor descrevem esses usuários.

menu