Análise de sentimento social, com Hadoop
análise de sentimento social é sem dúvida a mais exagerada do Hadoop usa, o que deve ser nenhuma surpresa, uma vez que o mundo está constantemente conectado ea população expressiva atual. Este caso de uso aproveita o conteúdo de fóruns, blogs e outros recursos de mídia social para desenvolver um sentimento de que as pessoas estão fazendo (por exemplo, eventos de vida) e como eles estão reagindo ao mundo ao seu redor (sentimento).
Como os dados baseado em texto não se encaixa naturalmente em um banco de dados relacional, o Hadoop é um local conveniente para explorar e executar análises sobre esses dados.
A língua é difícil de interpretar, mesmo para os seres humanos, às vezes - especialmente se você estiver lendo o texto escrito por pessoas em um grupo social que é diferente da sua. Este grupo de pessoas pode estar falando a sua língua, mas suas expressões e estilo são completamente estranho, então você não tem idéia se eles estão falando sobre uma experiência boa ou ruim.
Por exemplo, se você ouve a palavra bomba em referência a um filme, isso pode significar que o filme era ruim (ou bom, se você faz parte do movimento da juventude que interpreta # 147 É da bomba # 148- como um elogio) - é claro, se você está no negócio de segurança aérea, a palavra bomba tem um significado bastante diferente. O ponto é que a linguagem é usada em muitos aspectos variáveis e está em constante evolução.
Quando você analisa o sentimento em mídias sociais, você pode escolher entre várias abordagens. O método básico analisa programaticamente o texto, extrai cordas, e aplica regras. Em situações simples, esta abordagem é razoável. Mas, como requisitos evoluir e regras se tornam mais complexas, codificação manualmente texto-extrações rapidamente se torna não viável do ponto de vista da manutenção do código, especialmente para otimização de desempenho.
As abordagens baseadas em regras Grammar- e para o processamento de texto são computacionalmente caro, o que é uma consideração importante na extração em grande escala no Hadoop. Quanto mais envolvido as regras (que é inevitável para fins complexos, tais como extração de sentimento), mais processamento que é necessário.
Como alternativa, uma abordagem baseada em estatísticas está se tornando cada vez mais comum para análise de sentimento. Em vez de escrever manualmente regras complexas, você pode usar os modelos de aprendizagem de máquina orientada a classificação em Apache Mahout. O problema aqui é que você vai precisar para treinar seus modelos com exemplos de sentimento positivo e negativo. Os dados mais treinamento que você fornecer (por exemplo, texto de tweets e sua classificação), mais precisos os resultados.
O caso de uso para análise de sentimento social pode ser aplicado em uma ampla gama de indústrias. Por exemplo, considere a segurança alimentar: Tentar prever ou identificar o surto de doenças transmitidas por alimentos o mais rapidamente possível é extremamente importante para as autoridades de saúde.
A figura a seguir mostra uma aplicação Hadoop-ancorada que ingere os tweets usando extratores com base no eventual doença: gripe ou intoxicação alimentar.
Você vê o mapa de calor gerado, que mostra a localização geográfica dos tweets? Uma característica de dados em um mundo de big data é que a maior parte é espacialmente enriquecido: Ele tem informações localidade (e atributos temporais, também). Neste caso, o perfil do Twitter foi engenharia reversa, observando-se a localização publicada.
Como se vê, muitas contas de Twitter têm localizações geográficas, como parte de seus perfis públicos (bem como isenções afirmando claramente que seus pensamentos são os seus próprios ao invés de falar para os seus empregadores).
Como é bom de um motor de previsão pode ser a mídia social para o surto da gripe ou um incidente de intoxicação alimentar? Considere os dados da amostra anónimos mostrados. Você pode ver que os sinais de mídia social superou todos os outros indicadores para a previsão de um surto de gripe em um condado EUA específica durante o final do verão e no início do outono.
Este exemplo mostra um outro benefício que resulta da análise de mídia social: Dá-lhe uma oportunidade sem precedentes de olhar para informações de atributo em perfis de cartazes. Concedido, que as pessoas dizem sobre si mesmos em seus perfis do Twitter é muitas vezes incompleta (por exemplo, o código de localização não está preenchido) ou não significativa (o código de localização pode dizer nona Nuvem).
Mas você pode aprender muito sobre as pessoas ao longo do tempo, com base no que eles dizem. Por exemplo, um cliente pode ter twittou (Postada no Twitter) o anúncio do nascimento de seu bebê, uma imagem Instagram de sua pintura mais atrasada, ou destacamento Facebook afirmando que ela não posso acreditar que o comportamento de Walter White na última noite de Liberando o mal final.
Neste exemplo onipresente, a sua empresa pode extrair um evento de vida que preenche uma família de gráfico (uma nova criança é uma atualização valioso para um perfil de Master Data Management com sede em pessoa), um hobby (pintura), e um atributo de juros (você ama a apresentação Liberando o mal).
Ao analisar os dados sociais, desta forma, você tem a oportunidade de aprofundar atributos pessoais com informações tais como passatempos, aniversários, eventos de vida, localizações geográficas (país, estado e cidade, por exemplo), empregador, sexo, estado civil, e Mais.
Suponha por um minuto que você é o CIO de uma companhia aérea. Você pode usar os lançamentos de viajantes frequentes feliz ou com raiva, não só para saber o sentimento, mas também completam perfis de clientes para o seu programa de fidelidade usando informações de mídia social.
Imagine quanto melhor você poderia ter como alvo os potenciais clientes com a informação que acabou de ser compartilhado - por exemplo, um e-mail informando o cliente que Temporada 5 de Liberando o mal está agora disponível no sistema de mídia do avião ou anunciando que as crianças menores de dois anos de idade voar de graça.
É também um bom exemplo de como sistemas de registro (por exemplo, vendas ou bancos de dados de subscrição) pode atender sistemas de engajamento (por exemplo, canais de suporte). Apesar de redenção e de viagens história, os membros de fidelidade 'está em um banco de dados relacional, o sistema de engajamento pode atualizar os registros (por exemplo, uma coluna).