Como visualizar dados Raw Análise Preditiva '

Uma imagem vale mais que mil palavras - especialmente quando você está tentando obter um bom controle sobre seus dados de análise preditiva. Na fase de pré-processamento, enquanto você está preparando os seus dados, é uma prática comum para visualizar o que você tem na mão antes de continuar para a próxima etapa.

Você começar usando uma folha de cálculo, como o Microsoft Excel para criar uma matriz de dados - que consiste de dados de candidatos características (Também referido como atributos). pacotes de vários software de inteligência de negócios (como Tableau) pode lhe dar uma visão geral preliminar dos dados a que você está prestes a aplicar análises.

Como usar visualizações tabulares para análise preditiva

As tabelas são a representação pictórica mais simples, mais básico de dados. Tabelas (também conhecido como planilhas) Consistem em linhas e colunas - que correspondem, respectivamente, para os objetos e seus atributos mencionados anteriormente como fazer backup de seus dados. Por exemplo, considere os dados de redes sociais on-line. Um objeto de dados pode representar um usuário. Atributos de um usuário (objeto de dados) pode ser cabeçalhos de colunas: sexo, CEP, ou data de nascimento.

As células em uma tabela representam valores. Visualização em tabelas pode ajudá-lo facilmente detectar valores de atributo em falta de objetos de dados.

image0.jpg

Tabelas também pode fornecer a flexibilidade de adicionar novos atributos que são combinações de outros atributos. Por exemplo, em dados de rede social, você pode adicionar uma outra coluna chamada Idade, que pode ser facilmente calculado - como um atributo derivado - a partir da data existente do atributo nascimento. Os dados rede social tabular mostra uma nova coluna, Idade, criado a partir de uma outra coluna existente (data de nascimento).

image1.jpg

Os gráficos de barras usar em análise preditiva

Os gráficos de barras pode ser usado para detectar picos ou anomalias em seus dados. Você pode usá-lo para cada atributo para retratar rapidamente valores mínimos e máximos. Os gráficos de barras também pode ser usado para iniciar uma discussão de como a normalizar seus dados.

Normalização é o ajustamento de alguns - ou todos - os valores de atributos em uma escala que torna os dados mais utilizável. Por exemplo, você pode ver facilmente que há um erro nos dados: A barra de Idade em um registro é negativo. Essa anomalia é mais facilmente descrita por um gráfico de barras que por uma tabela de dados.

image2.jpg

Noções básicas de gráficos de pizza para análise preditiva

Os gráficos de pizza são usados ​​principalmente para mostrar porcentagens. Eles podem facilmente ilustrar a distribuição de vários itens, e destacar o mais dominante. Os dados brutos da rede social é representado de acordo com o atributo Idade. Observe que o gráfico mostra não só uma clara distribuição de homens contra mulheres, mas também um erro provável: R como um valor para o género tipo, possivelmente, criado quando os dados foram coletados.

image3.jpg

Como usar gráficos de gráficos para análise preditiva

teoria dos grafos fornece um conjunto de poderosos algoritmos que podem analisar dados estruturados e representados como um gráfico. Na ciência da computação, uma gráfico é a estrutura de dados, uma forma de organizar dados que representa as relações entre pares de objetos de dados. Um gráfico é composto por duas partes principais:

  • Vértices, também conhecido como nós

  • Bordas, que ligam pares de nós

As bordas podem ser dirigidos (representados por flechas) e podem ter pesos. Você pode decidir colocar uma borda (seta) entre dois nós (círculos) - neste caso, os membros da rede social que estão ligados a outros membros como amigos:

image4.jpg

a direção da seta indica quem "amigos" quem em primeiro lugar, ou que inicia interações na maior parte do tempo.

Noções básicas de nuvens palavra para análise preditiva

Considere-se uma lista de palavras ou conceitos dispostos como uma nuvem da palavra - uma representação gráfica de todas as palavras na lista, mostrando o tamanho de cada palavra como proporcional a uma métrica que você especificar. Por exemplo, se você tem uma planilha de palavras e ocorrências e você gostaria de identificar as palavras mais importantes, tente uma nuvem da palavra.

Nuvens da palavra trabalhar porque os dados da maioria das empresas é texto- um exemplo comum é o uso de tendências termos do Twitter. Cada termo nesta representação tem um peso que afecta o seu tamanho, como um indicador da sua importância relativa.

Uma maneira de definir que o peso poderia ser pelo número de vezes que uma palavra aparece na sua coleta de dados. Quanto mais frequentemente a palavra aparece, o "mais pesado" o seu peso - e quanto maior ele aparece na nuvem.

image5.jpg

Como usar reunindo representação aves para análise preditiva

comportamento flocking Natural em geral é um sistema auto-organizado em que os objetos (em particular, as coisas vivas) tendem a se comportar de acordo com (a) o ambiente a que pertencem e (b) as suas respostas a outros objetos existentes. O comportamento reunindo das sociedades naturais, tais como os de abelhas, moscas, aves, peixes e formigas - ou, para essa matéria, as pessoas - é também conhecido como inteligência de enxame.

image6.jpg

Birds seguir regras naturais quando se comportam como um rebanho. Flock companheiros são aves localizados com uma certa distância um do outro- essas aves são consideradas semelhantes. Cada pássaro se move de acordo com as três principais regras que organizam o comportamento reunindo.

  • Separação: Reunem-companheiros não devem colidir uns com os outros.

  • Alinhamento: Flock companheiros a se mover na mesma direção média, como seus vizinhos.

  • Coesão: Reunem-mates mover de acordo com a posição média ou localização do seu rebanho companheiros.

Modelando essas três regras podem permitir que um sistema analítico para simular comportamentos que reunem-se. Usando o comportamento natural auto-organizada dos pássaros que reunem-se, você pode converter uma planilha simples para uma visualização. A chave é definir o conceito de semelhança, como parte de seus dados. Comece com um par de perguntas:

  • O que torna objetos dois dados em seus dados similar?

  • Que atribui melhor pode conduzir a semelhança entre dois registros de dados?

    image7.jpg

Por exemplo, em dados de redes sociais, os registros de dados representam indivíduo usuários- os atributos que os descrevem podem incluir Idade, CEP, Estado Civil, lista de amigos, número de amigos, hábitos, Eventos

menu