La única dificultad real para hacer funcionar el sistema de detección de fraudes es adquirir buenos datos etiquetados. Suponiendo que tiene eso, puede construir un sistema de referencia en una semana, máx.
Azure ML incluso tiene una plantilla de detección de fraude que puede seguir, implementada en R. Parece bastante básica.
¡Nuevas plantillas emocionantes en Azure ML!
- Como persona con una maestría en química y un doctorado en ingeniería eléctrica y nanotecnología, a los 26 años sin experiencia en ciencias de la computación, ¿es demasiado tarde o demasiado difícil enseñarme a mí mismo el aprendizaje automático?
- Cómo construir una aplicación de predicción de flujo de efectivo personal con extractos bancarios utilizando el aprendizaje automático
- ¿Cuál es la diferencia entre los pronósticos de combinación y conjunto?
- ¿Es cierto que las Redes Adversarias Generativas (GAN) aprenden la función de pérdida automáticamente, y si es así, cómo?
- ¿Cómo funciona el CAPTCHA 'No soy un robot'?
El pateador está descubriendo qué tan preciso debes ser. ¿Cuál es la aplicación? ¿Cómo se toma la decisión actualmente? Es su objetivo ser más preciso, más preciso, más rápido …
¿Es más importante detectar todo el fraude o no generar falsos positivos?
Para el aprendizaje automático aplicado, la aplicación define el problema. Si está generando casos para que los vea un humano, querrá un alto recuerdo. Si cancela irrevocablemente una transacción, querrá una alta precisión. (Pero nadie está contento con un recuerdo demasiado bajo).
Lo primero que debe hacer para esto, y para cualquier problema como este, es tener una idea de cuán preciso será un enfoque simple y qué tan preciso debe ser.
Hay empresas que existen solo para hacer este tipo de trabajo: no es fácil ser lo suficientemente preciso como para implementarlo. Podrías pasar años y no estar a la altura si estás tratando de bloquear transacciones en tiempo real. (Su pregunta parece un poco extraña en ese frente: ¿un banco ha contratado a un tipo? ¿Para qué tipo de fraude? ¿No podrían comprar un sistema llave en mano, suponiendo que el fraude les esté costando $$? Pero no sé su situación , entonces …) Un modelo de clasificación parece un lugar obvio para comenzar, pero la detección de anomalías podría ser otro buen ángulo. Probablemente, sin embargo, los avances clave vendrán de obtener más y mejores datos, o de encontrar formas de crear correctamente esos datos. Comprender el dominio del problema lo ayudará a transformar los datos para que el modelo pueda razonar mejor al respecto. ¿Mencioné obtener muchos datos buenos? Sí, probablemente lo hice. Vas a necesitar eso. El algoritmo más inteligente del mundo hará pedazos si solo tiene un poco de datos de buena calidad. Por el contrario, un programador con una buena caja de herramientas ML y una gran cantidad de datos puede construir un sistema decente para la mayoría de los problemas, dependiendo de la aplicación.