Recentemente destacamos algumas apresentações realizadas durante o nosso segundo Dia Anual da Tecnologia Uber. Neste artigo, o gerente de ciência de dados de engenharia e apresentador do Dia da Tecnologia Uber, Ting Chen, discute como alavancamos sistemas de ponta para combater a fraude em nossa plataforma.
A fraude tem um impacto direto na Uber, bem como nas experiências do usuário na plataforma. Para combater os maus agentes, a Uber conta com uma equipe dedicada de analistas antifraude, cientistas de dados e especialistas em UX, que trabalham de maneira colaborativa nessa questão. Como parte desse esforço, criamos serviços internos que nos ajudam a monitorar e responder continuamente às mudanças no cenário de fraude em constante evolução.
Esses serviços procuram comportamentos errôneos, ações que não seriam tomadas por usuários legítimos.
Usando nossas tecnologias de combate a fraudes, podemos, por exemplo, diferenciar entre viagens reais e aquelas criadas por spoofing/falsificação de GPS, ou analisar como nossos aplicativos estão sendo usados para revelar fraudadores.
Neste artigo, detalhamos alguns tipos de fraude e as tecnologias que usamos para combatê-las.
Tipos de fraude
Na Uber, lidamos com vários tipos de fraude, como: fraude de pagamento, abuso de incentivo e contas comprometidas. Nós descrevemos estas categorias, abaixo:
Fraude de pagamento
Fraude de pagamento acontece quando maus agentes usam cartões de crédito roubados para pagar pelas viagens da Uber. Normalmente, quando os proprietários de cartões de crédito descobrem transações não autorizadas em suas contas, eles ligam para o banco ou empresa do cartão de crédito para contestá-las, e a Uber reembolsa a cobrança.
Para maximizar o lucro com cartões de crédito roubados, os fraudadores não fazem essas viagens sozinhos. Em vez disso, trabalhando como um serviço de agente, eles anunciam serviços de viagem com desconto em sites e fóruns de bate-papo para outras pessoas.
Abuso de incentivo
A Uber frequentemente oferece a novos usuários um crédito por se inscrever ou indicar amigos, bem como bônus para motoristas que completam uma certa quantidade de viagens dentro de um determinado período de tempo. Os fraudadores tentam aproveitar esses incentivos criando contas falsas para ganhar créditos como novos usuários e referências, ou simular viagens falsas para ganhar um bônus de motorista.
Contas comprometidas
Os fraudadores também usam técnicas de phishing para acessar contas de passageiro e motorista. Com uma conta de passageiro, um fraudador pode oferecer serviços de agente, vendendo viagens para outras pessoas. O acesso a uma conta de motorista pode permitir que um fraudador retire dinheiro. As técnicas de phishing geralmente incluem e-mails, mensagens de texto ou telefonemas para induzir os usuários a darem suas senhas e códigos de autenticação de dois fatores.
Sistemas de detecção
A luta contra fraudes em escala é uma tarefa desafiadora. Não estamos lutando contra um pequeno número de indivíduos, mas grandes comunidades criminosas bem organizadas, equipadas com tecnologias avançadas e excelente serviço ao cliente. No entanto, desenvolvemos tecnologias ainda mais avançadas para ajudar a combater esse problema.
Detecção de falsificação de GPS
Vimos que os maus agentes usam aplicativos de falsificação de GPS para criar locais falsos em um telefone, a fim de simular uma viagem real, na esperança de serem pagos através de uma conta de motorista. A técnica padrão envolve um fraudador criando uma nova conta de passageiro, adicionando um cartão de crédito roubado e usando essa conta para pagar por uma viagem falsa de sua conta de motorista.
O cartão de crédito é sacado e o pagamento é transferido para a conta fraudulenta de motorista. Às vezes, os fraudadores criam várias viagens falsas para aumentar o número total de viagens, para que possam ganhar um bônus de incentivo da Uber. O que eles não sabem é que podemos detectar falsificações de GPS e bloquear esses pagamentos fraudulentos.
Por exemplo, dê uma olhada neste popular aplicativo de falsificação de GPS, mostrado na Figura 4, chamado Mock Location. Neste aplicativo, a configuração padrão para a altitude é de 120 ± 10 metros. No entanto, se traçarmos a distribuição de altitude de todas as viagens de uma determinada cidade com altitude média em torno de 800 metros, descobriremos que há uma série de viagens mostrando uma altitude de 120 metros.
Estas são viagens falsas, criadas com o aplicativo Mock Location. Não usamos essa regra ad hoc para detecção de falsificação, pois a configuração pode ser alterada facilmente e há outros aplicativos de falsificação mais sofisticados.
Em vez disso, desenvolvemos um perfil de altitude para todas as localizações geográficas em todo o mundo, agregando dados históricos de viagem. Em seguida, comparamos a altitude de cada viagem com a altitude do perfil. Neste exemplo, mostrado abaixo na Figura 6, você pode ver facilmente que a altitude de uma viagem real se alinha de perto com a superfície da Terra, enquanto as viagens falsas estão voando no céu ou viajando no subsolo.
Usamos um cálculo semelhante para correspondência de velocidade, mostrado abaixo na Figura 7, com perfis de velocidade por hora para segmentos de estrada globais em cada dia da semana. Comparando a velocidade de uma viagem com o perfil de velocidade, podemos ver qual porcentagem de uma viagem se realiza a uma velocidade anormal, indicando a probabilidade de ela ser falsa.
A integridade da localização como uma estratégia de defesa é uma tarefa complexa e sofre limitações em regiões com poucas viagens da Uber. Para reforçar a nossa prevenção contra fraudes, identificamos regiões suspeitas ao corresponder baixa probabilidade de viagem com altas taxas de inscrição em conta fraudulenta. Combinando esses parâmetros com outros sinais, como perda financeira, informações sobre o dispositivo e recursos no nível da viagem ou no nível do usuário, fazemos amostragens de viagens para revisão manual.
Temos uma equipe dedicada de revisão manual, responsável por rotular viagens como legítimas ou fraudulentas com um alto grau de confiança, bem como responsável por descobrir novos padrões de fraude. Finalmente, construímos um modelo de aprendizado de máquina de alta precisão para detectar viagens criadas por falsificação de GPS.
Enquanto isso, podemos usar modelos de aprendizagem profunda para detecção de anomalias e reduzir o esforço de engenharia de novos recursos.
Modelagem de sequência para classificar o comportamento do usuário
Padrões de interação com aplicativos Uber diferem entre usuários normais e fraudadores. Ao solicitar uma viagem, a maioria dos usuários segue uma sequência de edição do local de desembarque, movendo o alfinete no mapa, visualizando os preços de diferentes tipos de produtos e clicando no botão de solicitação de viagem.
Os fraudadores seguem um padrão diferente otimizado para ganhar o máximo de dinheiro o mais rápido possível. Esses padrões de uso distintos nos permitem usar modelos de aprendizagem profunda de Long Short Term Memory (LSTM) para diferenciar os dois.
Por exemplo, um bom usuário que é novo na Uber normalmente gasta tempo revisando os tipos de produtos, comparando as diferenças entre o uberPOOL, o uberX e o UberBLACK. No entanto, um fraudador que esteja oferecendo serviços de agente a outras pessoas gastará mais tempo editando endereços, movendo pinos e alterando os métodos de pagamento.
Visualizamos os dados do fluxo de toque como uma série temporal e usamos uma codificação one-hot para representar cada toque. Também anexamos o registro de data e hora ao vetor para manter as informações de duração de tempo.
Esses vetores são a entrada para o nosso modelo LSTM. A camada de ativação final é um escore de probabilidade que prevê se uma sequência de toques é de um usuário mal intencionado ou não. A segunda última camada é um vetor denso de 64 dimensões que também pode ser visto como um recurso codificado para o fluxo de derivação.
Adicionamos o escore de probabilidade e o recurso codificado ao nosso modelo de negócios de linha de base e demonstramos a eficácia do uso do LSTM para análise de fluxo de toque. Nossos resultados experimentais indicaram que as pontuações e recursos codificados que foram aprendidos com o LSTM aparecem como os recursos mais importantes nos modelos tradicionais, e os recalls dos modelos foram drasticamente aumentados em até 67% em comparação aos modelos sem recursos LSTM, como mostrado na Figura 13, abaixo:
Avançando
O combate a fraudes é um esforço contínuo e de longo prazo, já que o mercado de fraudes em si é muito sofisticado e se adapta a novos produtos e novos serviços ao longo do tempo. Precisamos criar sistemas que mantenham um bom equilíbrio entre fornecer uma rápida recuperação para a detecção de fraudes e oferecer uma infraestrutura robusta, estável e escalonável.
Se resolver problemas complexos por meio da ciência de dados e aprendizagem de máquina interessa a você, considere a possibilidade de se juntar à nossa equipe.
Assine nossa newsletter para acompanhar as mais recentes inovações da Engenharia da Uber.
***
Este artigo é do Uber Engineering. Ele foi escrito por Ting Chen. A tradução foi feita pela Redação iMasters com autorização. Você pode conferir o original em: https://eng.uber.com/advanced-technologies-detecting-preventing-fraud-uber/