Como gerar dados derivados e reduzir a sua dimensionalidade para análise preditiva
Nesta fase de exploração de análise preditiva, você vai ganhar conhecimento íntimo de seus dados - que por sua vez vai ajudar você a escolher as variáveis relevantes para analisar. Este entendimento também irá ajudá-lo a avaliar os resultados de seu modelo. Mas primeiro você tem de identificar e limpar os dados para análise.
Como para gerar dados derivados
atributos derivados são inteiramente novos registros construídos a partir de um ou mais atributos existentes. Um exemplo seria a criação de registros que identificam os livros que são best-sellers em feiras do livro. Os dados brutos podem não capturar esses registros - mas para fins de modelagem, os registros derivados pode ser importante. Preço por lucro rácio e 200 dias de média móvel são dois exemplos de dados derivados que são muito utilizadas em aplicações financeiras.
atributos derivados podem ser obtidos a partir de cálculo simples, como deduzir a idade a partir da data de nascimento. atributos derivados também pode ser calculado por resumir informações de vários registros.
Por exemplo, a conversão de uma tabela de clientes e seus livros comprados em uma tabela pode permitir-lhe controlar o número de livros vendidos através de um sistema de recomendação, por meio de marketing dirigido, e em uma feira do livro - e identificar o grupo demográfico de clientes que compraram esses livros .
Geradores desses atributos adicionais trazer o poder preditivo adicional para a análise. Na verdade, muitos desses atributos são criados de modo a sondar seu poder preditivo potencial. Alguns modelos preditivos podem usar atributos mais derivados do que os atributos em seu estado bruto. Se alguns atributos derivados revelar-se especialmente preditiva e seu poder é provado ser relevante, então faz sentido para automatizar o processo que os gera.
registros derivados são novos registros que trazem novas informações e fornecer novas formas de apresentação de dados em bruto que pode ser de enorme valor para modelagem preditiva.
Como reduzir a dimensionalidade dos dados
Os dados utilizados nos modelos preditivos é geralmente reunidos a partir de múltiplas fontes. Sua análise pode desenhar a partir de dados espalhados por vários formatos de dados, arquivos e bancos de dados ou várias tabelas dentro do mesmo banco de dados. Reunindo os dados em conjunto e combinando-o em um formato integrado para os modeladores de dados para usar é essencial.
Se os dados contém qualquer conteúdo hierárquico, ele pode precisar de ser achatado. Alguns dados tem algumas características hierárquicas, tais como relações pai-filho, ou um registro que é composta de outros registros. Por exemplo, um produto, como um carro pode ter vários dados achatamento makers-, neste caso, significa a inclusão de cada máquina como um recurso adicional do registro que você está analisando.
Achatamento de dados é essencial quando se fundiu a partir de vários registros relacionados para formar uma imagem melhor.
Por exemplo, analisando os eventos adversos para vários fármacos constituídos por várias empresas podem exigir que os dados sejam achatados no nível de substâncias. Ao fazer isso, você acaba removendo o um-para-muitos relacionamentos (Neste caso, muitos fabricantes e muitas substâncias para um produto) que podem causar muita duplicação de dados, repetindo várias entradas de substâncias que se repetem informações sobre o produto e máquina em cada entrada.
Reduz o achatamento dimensionalidade dos dados, o qual é representado pelo número de características de uma ficha ou uma observação tem.
Por exemplo, um cliente pode ter as seguintes características: nome, idade, endereço, itens comprados. Quando você começar a sua análise, você pode encontrar-se avaliando registros com muitos recursos, das quais apenas algumas são importantes para a análise. Portanto, você deve eliminar todos, mas os poucos recursos que têm o poder mais preditivo para seu projeto específico.
Reduzir a dimensionalidade dos dados pode ser alcançado por colocar todos os dados em uma única tabela que utiliza várias colunas para representar os atributos de interesse. No início da análise, é claro, a análise tem de avaliar um grande número de colunas - mas esse número pode ser reduzida como a análise progride.
Este processo pode ser facilitado pela reconstituição dos campos - por exemplo, através do agrupamento de dados em categorias que têm características semelhantes.
O conjunto de dados resultante - o conjunto de dados limpos - é normalmente colocado em um banco de dados separado para os analistas de usar. Durante o processo de modelagem, esses dados devem ser facilmente acessado, gerenciado e mantido até à data.