¿Cuáles podrían ser las características posibles para detectar fraude en transacciones en cajeros automáticos?

¿Cuáles son las características que planea usar? Su conjunto de datos no está etiquetado, ¿hay alguna forma de validar las etiquetas que asigna? es decir, si marca una transacción como fraude, ¿podrá validarla? Los SVM son geniales, pero sin etiquetas no ayuda y, en tales casos, también le gustaría entender por qué es un fraude. Entonces, teniendo en cuenta todo esto, comenzaría con una simple detección gaussiana basada en la distribución de anamolias, si las etiquetas pueden validarse, comience con bayes Naive. Hay una extensión de detección de anamolias para Rapidminer, que puede encontrar anamolias al agruparlas también. Actualice la pregunta thr con más detalles sobre mis preguntas, para obtener una respuesta más específica. Espero que ayude.

EDITAR:

Comenzaría con un conjunto simple de características como monto retirado, saldo actual, días desde el último retiro, último monto retirado, promedio (monto retirado), min (..), max (..) y así sucesivamente. Creo que obtienes la idea..

La clave importante aquí es normalizar los datos, normalizar cada registro específico a las estadísticas del cliente correspondiente. Puede leer más sobre la normalización aquí en mi blog, Preprocesamiento de datos – Normalización. por ejemplo, si elige hacer la normalización min max, los min y max utilizados deben ser los min y max del cliente correspondiente. Esto asegurará que todos sus valores estén dentro del rango (0,1) sin perder la información relevante para el cliente.

Ahora comience con una simple detección de anomalías basada en Gauss, vea el rendimiento, pruebe Naivebayes, discretice los datos e intente árboles de decisión y reglas de asociación.
Todo esto lo ayudará a comprender los datos y también le proporcionará algunos resultados comprensibles.

Pero desea más precisión, intente la regresión logística, luego SVM. Finalmente usaría una mezcla de estos modelos.

Los tipos de características sin procesar y derivadas para el fraude de transacciones en ATM pueden incluir:

  • Máquina, como ubicación (por ejemplo, al lado del supermercado, latitud, longitud), marca y edad.
  • Cliente, como información demográfica (por ejemplo, código postal) y de comportamiento
  • Tarjeta, como tipo (p. Ej. Visa, suplementaria, emitida ayer) y uso
  • Sesión y transacción, como día de la semana, hora del día, pulsaciones de teclas (por ejemplo, número de intentos de inicio de sesión), tipo de transacción y cantidad

Su enfoque no tiene que ser probabilístico.

Si tiene un millón, supongo que tiene varios retiros por cuenta. Observe las desviaciones de los retiros de referencia por hora del día, cantidad, ubicación en comparación con la ubicación anterior. Mire la ubicación del cajero automático en comparación con la ubicación del banco emisor.