Mineração de dados para Big Data
A mineração de dados envolve explorar e analisar grandes quantidades de dados para encontrar padrões para big data. As técnicas saiu dos campos de estatísticas e de inteligência artificial (AI), com um pouco de gerenciamento de banco de dados jogados na mistura.
Geralmente, o objetivo da mineração de dados é ou classificação ou previsão. Na classificação, a idéia é classificar os dados em grupos. Por exemplo, um comerciante pode estar interessado nas características daqueles que responderam relação que não responderam a uma promoção.
Estas são duas classes. Na previsão, a ideia é de prever o valor de uma variável contínua. Por exemplo, um comerciante pode estar interessado em prever quem vontade responder a uma promoção.
algoritmos típicos usados em mineração de dados incluem o seguinte:
árvores de classificação: Uma técnica de mineração de dados popular que é usado para classificar uma variável categórica dependente com base em medições de uma ou mais variáveis de previsão. O resultado é uma árvore com nós e ligações entre os nós que podem ser lidos para formar regras se-então.
A regressão logística: Uma técnica estatística que é uma variante de regressão padrão, mas estende o conceito para lidar com a classificação. Ela produz uma fórmula que prevê a probabilidade da ocorrência como uma função das variáveis independentes.
Redes neurais: Um algoritmo de software que é modelado a partir da arquitectura paralela da cérebros de animais. A rede consiste em nós de entrada, camadas ocultas e nós de saída. Cada unidade é atribuído um peso. Os dados são apresentados para o nó de entrada, e por um sistema de tentativa e erro, o algoritmo ajusta os pesos até que se encontre a um determinado critério de paragem. Algumas pessoas têm comparado este a uma abordagem caixa-preta.
técnicas de agrupamento como K-vizinhos mais próximos: Uma técnica que identifica grupos de registros similares. O mais próximo K técnica vizinho calcula as distâncias entre o registro e os pontos nos dados históricos (formação). Em seguida, atribui esse registro para a classe de seu vizinho mais próximo, em um conjunto de dados.
Aqui está um exemplo árvore de classificação. Considere a situação em que uma empresa de telefonia quer determinar quais os clientes residenciais são susceptíveis de desconectar seu serviço.
A companhia telefônica tem informações que consiste nos seguintes atributos: quanto tempo a pessoa teve o serviço, o quanto ele gasta no serviço, se o serviço tem sido problemática, se ele tem o melhor plano de chamadas que ele precisa, onde mora, como idade ele é, se ele tem outros serviços agrupados em conjunto, informações sobre a concorrência relativas a outros planos de operadoras, e se ele ainda tem o serviço.
Claro, você pode encontrar muitos mais atributos do que isso. O último atributo é o resultado Variável é isso que o software será usado para classificar os clientes em um dos dois grupos - talvez chamados stayers e riscos de voos.
O conjunto de dados é dividido em dados de treinamento e um conjunto de dados de teste. Os dados de treinamento consiste de observações (chamados atributos) e uma variável de resultado (binário no caso de um modelo de classificação) - neste caso, os operadores que permanecem ou os riscos de voos.
O algoritmo é executado sobre os dados de treinamento e vem com uma árvore que pode ser lido como uma série de regras. Por exemplo, se os clientes têm sido com a empresa por mais de dez anos e eles são mais de 55 anos de idade, eles tendem a permanecer como clientes leais.
Estas regras são, em seguida, executar todo o conjunto de dados de teste para determinar o quão bom este modelo está em Número 147 novos dados. Medidas # 148- Precisão são fornecidos para o modelo. Por exemplo, uma técnica popular é a matriz de confusão. Esta matriz é uma tabela que fornece informações sobre quantos casos foram classificados corretamente contra incorretamente.
Se o modelo parece ser bom, ele pode ser implantado em outros dados, uma vez que está disponível (ou seja, usá-lo para prever novos casos de risco de fuga). Com base no modelo, a empresa pode decidir, por exemplo, para enviar ofertas especiais para os clientes a quem ele acha que são riscos de voos.