Text Analytics para Unstructured Big Data
Existem numerosos métodos para a análise de dados não estruturados para sua iniciativa de dados grande. Historicamente, estas técnicas saiu de áreas técnicas, tais como processamento de linguagem natural (NLP), descoberta de conhecimento, mineração de dados, recuperação de informação e estatísticas. análise de texto é o processo de análise de texto não estruturado, extrair informações relevantes, e transformando-os em informações estruturadas que podem ser aproveitados de várias maneiras.
Os processos de análise e extração de tirar proveito das técnicas que se originaram em linguística computacional, estatística e outras disciplinas de ciência da computação.
Às vezes, um exemplo pode ajudar a explicar um topic.Suppose complexo que você trabalha para o departamento de marketing em um telefone sem fio company.You've acaba de lançar dois novos planos de chamadas - Plano A e Plano B -e você não está recebendo a captação você queria sobre o Plano A. o texto não estruturado a partir da chamada notas center pode lhe dar algumas dicas sobre por que isso aconteceu.
As palavras sublinhadas fornecer a informação que você precisa para entender por que o Plano A não está ganhando rápida exemplo adoption.For, a entidade Plano A é exibida ao longo das notas de call center, indicando que os relatórios mencionam o plano.
Os termos minutos com capotamento, os dados de 4GB, plano de dados, e caro são evidências de que existe um problema com os minutos a capotagem, o plano de dados, e os price.Words como ridículo e estúpido fornecer uma visão sobre o sentimento do chamador, que neste caso é negativo.
O processo de análise de texto utiliza vários algoritmos, como a estrutura da frase entendimento, para analisar o texto não estruturado e thenextract informações, e transformar essa informação em dados data.The estruturado estruturados extraídos do texto não estruturado é ilustrada na Tabela 13-1.
identificador | Entidade | Questão | Sentimento |
---|---|---|---|
Cust XYZ | plano A | minutos com capotamento | Neutro |
Cust ABC | plano A | minutos com capotamento | Negativo |
XXXX | plano A | Caro | Neutro |
XXXX | plano A | Plano de dados | Neutro |
Cust XYT | plano A | Plano de dados | Negativo |
Você pode olhar para isso e dizer, # 147-Mas eu poderia ter descoberto isso por olhar para os registros de call center. # 148- No entanto, estes são apenas um pequeno subconjunto da informação a ser gravada por milhares de agentes de call center. Cada agente individual não pode sentir uma tendência geral sobre o problema com cada plano que está sendo oferecido pela empresa.
Os agentes não têm o tempo ou a necessidade de compartilhar esta informação através de todos os outros agentes de call center que pode estar recebendo um número semelhante de chamadas sobre o Plano A. No entanto, após esta informação é agregada e processados usando análise de texto algoritmos, uma tendência pode emergir estes dados não estruturados. É isso que faz análise de texto tão poderoso.
Pesquisa é sobre como recuperar um documento com base no que os usuários finais já sabem que eles estão procurando. análise de texto é sobre a descoberta de informações. Enquanto análise de texto difere da pesquisa, ele pode aumentar as técnicas de pesquisa. Por exemplo, análise de texto, combinados com a pesquisa podem ser usados para proporcionar uma melhor categorização ou classificação de documentos e produzir resumos ou resumos de documentos.
Existem quatro tecnologias: consulta, mineração de dados, pesquisa e análise de texto. No lado esquerdo da tabela são de consulta e de pesquisa, que estão a cerca de recuperação. Por exemplo, um usuário final pode consultar um banco de dados para descobrir como muitos clientes deixaram de usar os serviços da empresa no mês passado.
A consulta retornaria um único número. Apenas pedindo mais e diferentes consultas será o usuário final obter as informações necessárias para determinar por que os clientes estão saindo. Da mesma forma, a pesquisa de palavras-chave permite que o usuário final para encontrar os documentos que contêm os nomes dos concorrentes de uma empresa. A pesquisa retornará um grupo de documentos. Apenas lendo os documentos que o usuário final vir para cima com todas as respostas relevantes.
Recuperação | introspecção | |
---|---|---|
estruturado | Dados Retorna: consulta | A mineração de dados: Visão de dados estruturados |
Unstructured | Pesquisa: Retorna documentos | análise de texto: Percepção de texto |
As tecnologias sobre as peças de retorno à esquerda de informação e exigem interação humana para sintetizar e analisar essa informação. As tecnologias à direita - Análises de mineração de dados e texto - entregar uma visão muito mais rapidamente. Felizmente, o valor de análise de texto para a sua organização está se tornando claro.