Detecção de Fraude com Hadoop

O grande volume de transações faz com que seja mais difícil de detectar a fraude por causa do volume de dados, ironicamente, este mesmo desafio pode ajudar a criar modelos preditivos melhor de fraude - uma área onde Hadoop brilha.

No mundo interconectado de hoje, o volume ea complexidade das transações faz com que seja mais difícil do que nunca para encontrar fraude. O que costumava ser chamado # 147 encontrar uma agulha num palheiro # 148- tornou-se a tarefa de # 147 encontrar uma agulha específica em pilhas de agulhas # 148.;

As abordagens tradicionais de prevenção da fraude não são particularmente eficientes. Por exemplo, a gestão de pagamentos indevidos é frequentemente gerido por analistas auditando o que equivale a uma pequena amostra de pedidos emparelhados com o pedido de documentação médica a partir submeteu-alvo. O termo da indústria para este modelo é pagamento e perseguição: Reivindicações são aceites e pagos e processos de procurar por excesso intencionais ou não por meio de avaliação de pós-pagamento dessas reivindicações.

Então, como é a detecção de fraudes feito agora? Por causa das limitações das tecnologias tradicionais, os modelos de fraude são construídos por amostragem de dados e utilizando a amostra para construir um conjunto de modelos de fraude de previsão e de detecção. Quando você contrastar este modelo com um departamento de Hadoop-ancorado fraude que usa o conjunto de dados completo - nenhuma amostragem - para construir os modelos, você pode ver a diferença.

O tema recorrente mais comum que você vê na maioria dos casos de uso do Hadoop é que ele auxilia negócios em rompendo o teto de vidro sobre o volume ea variedade de dados que podem ser incorporados em análise de decisão. Quanto mais dados você tem (e quanto mais a história que você armazene), o melhor suas modelos pode ser.

Misturando formas não tradicionais de dados com o seu conjunto de transações históricas pode fazer seus modelos de fraude ainda mais robusto. Por exemplo, se um trabalhador faz pedido de indemnização de um trabalhador de um problema nas costas de um incidente de deslizamento e quedas, ter uma piscina de milhões de casos de resultados de pacientes que o tratamento detalhe e tempo de recuperação ajuda a criar um padrão de detecção de fraude.

Como um exemplo de como este modelo pode funcionar, imagine tentar descobrir se os pacientes em áreas rurais recuperar mais lentamente do que aqueles em áreas urbanas. Você pode começar por analisar a proximidade de serviços de fisioterapia. Existe uma correlação padrão entre os tempos de recuperação e localização geográfica?

Se o seu departamento de fraude determina que uma determinada lesão leva três semanas de recuperação, mas que um agricultor com o mesmo diagnóstico vive uma hora de um fisioterapeuta e o trabalhador de escritório tem um médico em seu escritório, isso é uma outra variável para adicionar ao padrão de detecção de fraude .

Quando você colher dados rede social para os requerentes e encontrar um paciente que alega estar sofrendo de whiplash é gabando-se completar a série robusta de provas de resistência conhecidos como Mudder resistente, é um exemplo da mistura de novos tipos de dados com as formas tradicionais de dados para detectar fraudes .

Se você quer chutar seus esforços de detecção de fraude a uma velocidade superior, a sua organização pode trabalhar para se afastar de modelagem de segmento de mercado e se mover em direção a modelagem a nível das transacções ou na pessoa.

Muito simplesmente, fazer uma previsão com base em um segmento é útil, mas tomar uma decisão com base na informação particular sobre uma transação individual é (obviamente) melhor. Para fazer isso, você trabalha-se um conjunto maior de dados do que é convencionalmente possível na abordagem tradicional. Só (um máximo de) 30 por cento da informação disponível que pode ser útil para a modelação fraude está a ser utilizado.

Para a criação de modelos de detecção de fraude, o Hadoop é bem adequado para

  • Lidar com o volume: Isso significa que o processamento do conjunto de dados completo - nenhuma amostragem de dados.

  • Gerir novas variedades de dados: Exemplos são a inclusão de proximidade-a-care-serviços e círculos sociais para decorar o modelo de fraude.

  • Manter um ambiente ágil: Permitir diferentes tipos de análise e alterações aos modelos existentes.

modeladores de fraude pode adicionar e testar novas variáveis ​​no modelo sem ter que fazer uma proposta para a sua equipa de administrador de banco de dados e, em seguida, esperar um par de semanas para aprovar uma alteração de esquema e colocá-lo em seu ambiente.

Este processo é fundamental para a detecção de fraudes, porque ambientes dinâmicos geralmente têm padrões de fraude cíclicas que vêm e vão, em horas, dias ou semanas. Se os dados utilizados para identificar ou reforçar novos modelos de detecção de fraude não está disponível em qualquer momento, pelo tempo que você descobrir esses novos padrões, pode ser tarde demais para evitar danos.

Avaliar o benefício para o seu negócio, não só construindo modelos mais abrangentes com mais tipos de dados, mas também ser capaz de renovar e melhorar os modelos mais rápido do que nunca. A empresa que pode renovar e melhorar os modelos diária vai se saem melhor do que aqueles que fazê-lo trimestralmente.

Você pode acreditar que este problema tem uma resposta simples - basta perguntar a seu CIO para as despesas operacionais (OPEX) e as aprovações despesas de capital (CAPEX) para acomodar mais dados para tomar melhores modelos e carregar os outros 70 por cento dos dados em seus modelos de decisão.

Você pode até acreditar que este investimento vai pagar por si com uma melhor detection- fraude no entanto, o problema com esta abordagem é os altos custos iniciais que precisam ser afundado desconhecido de dados, onde você não sabe se ele contém qualquer visão verdadeiramente valioso.

Claro, triplicando o tamanho do seu armazém de dados, por exemplo, vai lhe dar mais acesso aos dados históricos estruturados para ajustar seus modelos, mas eles não podem acomodar rajadas de mídia social. tecnologias tradicionais não são tão ágeis, também. Hadoop torna mais fácil para introduzir novas variáveis ​​no modelo, e se eles acabam por não se render melhorias para o modelo, você pode simplesmente descartar os dados e seguir em frente.

menu