La detección de fraude ha sido un área emocionante y desafiante para trabajar como científico de datos en Square debido al flujo constante de problemas de datos interesantes para trabajar y el impacto medible que sus modelos pueden tener en la pérdida y la experiencia del cliente. Los principales problemas en los que trabajamos son la generación de datos, el aprendizaje automático para la detección de fraudes, la optimización de casos, la decisión de operaciones y el pronóstico de pérdidas.
Generacion de datos
Antes de construir modelos, queremos datos confiables y que cubran todos los aspectos de la actividad de un comerciante. Esto significa que necesitamos un registro de datos de alta calidad en todos nuestros productos y un sistema que nos permita recuperar estos datos rápidamente al evaluar un nuevo pago. Nuestro equipo de ingeniería ha creado un sistema de cientos de señales útiles para nuestros modelos de detección de fraude que se ejecuta en tiempo real y que también nos permite obtener datos históricos para las pruebas de respaldo.
- ¿Cuál sería una buena pila tecnológica para aprender para un ingeniero de datos principiante?
- ¿Qué estadísticas debo saber para hacer ciencia de datos?
- ¿Cómo logra Coffee Meets Bagel tener éxito sin ningún científico de datos?
- ¿Cómo son las perspectivas de trabajos de análisis de datos en Singapur?
- ¿Cuál es el mejor instituto de ciencia de datos en la India?
Aprendizaje automático para la detección de fraudes.
Tenemos más de 50 modelos de aprendizaje automático y heurísticas que utilizan transacciones históricas y actividades de pago para predecir si un pago futuro puede resultar en una pérdida para Square. Utilizamos técnicas de aprendizaje automático como bosques aleatorios y árboles de impulso para clasificar a los comerciantes como fraudulentos, y ocasionalmente otras técnicas de regresión para estimar la pérdida potencial de Square. Estos modelos apuntan a diferentes tipos de fraude; por ejemplo, fraude específico del producto, o fraude comprador contra vendedor.
Optimización de Casos
Para cada modelo, necesitamos determinar en qué umbral vale la pena revisar el caso, dada la posible pérdida para Square y el costo de revisar el caso. Idealmente, desea atrapar la mayor cantidad de dólares malos mientras revisa la menor cantidad de casos posible. Tener muchos modelos significa que necesita tener una forma estandarizada de evaluar los modelos y asignar recursos para revisar los casos de cada modelo. Algunas métricas comunes son:
- Precisión:% de pagos sospechosos que fueron malos
- Retirada:% del total de pagos incorrectos / dólares que sus modelos sospechaban
- Rendimiento: $ pagos incorrectos atrapados por sospecha
Decisiones de operaciones
Los modelos no pueden hacer todo el trabajo: si los modelos tomaran acciones automatizadas en todos los comerciantes, correríamos el riesgo de insultar a nuestros fuertes comerciantes. El equipo de operaciones es responsable de revisar esos casos. Entonces, el problema aquí es presentar los datos al equipo de operaciones de una manera que los lleve a tomar las mejores decisiones y a determinar e informar sobre las métricas que motivan esas decisiones.
Previsión de pérdidas
Las pérdidas pueden tardar meses en darse cuenta, pero en cualquier mes queremos saber lo antes posible cómo se realiza un seguimiento general de las pérdidas, y por producto, país, etc. Estas previsiones deben ser estables y precisas, ya que se convierten en las métricas de nivel superior para El equipo y son importantes para la contabilidad también.