¿Cuáles podrían ser las características posibles para detectar fraude en transacciones en cajeros automáticos?

¿Cuáles son las características que planea usar? Su conjunto de datos no está etiquetado, ¿hay alguna forma de validar las etiquetas que asigna? es decir, si marca una transacción como fraude, ¿podrá validarla? Los SVM son geniales, pero sin etiquetas no ayuda y, en tales casos, también le gustaría entender por qué es un fraude. Entonces, teniendo en cuenta todo esto, comenzaría con una simple detección gaussiana basada en la distribución de anamolias, si las etiquetas pueden validarse, comience con bayes Naive. Hay una extensión de detección de anamolias para Rapidminer, que puede encontrar anamolias al agruparlas también. Actualice la pregunta thr con más detalles sobre mis preguntas, para obtener una respuesta más específica. Espero que ayude.

EDITAR:

Comenzaría con un conjunto simple de características como monto retirado, saldo actual, días desde el último retiro, último monto retirado, promedio (monto retirado), min (..), max (..) y así sucesivamente. Creo que obtienes la idea..

La clave importante aquí es normalizar los datos, normalizar cada registro específico a las estadísticas del cliente correspondiente. Puede leer más sobre la normalización aquí en mi blog, Preprocesamiento de datos – Normalización. por ejemplo, si elige hacer la normalización min max, los min y max utilizados deben ser los min y max del cliente correspondiente. Esto asegurará que todos sus valores estén dentro del rango (0,1) sin perder la información relevante para el cliente.

Ahora comience con una simple detección de anomalías basada en Gauss, vea el rendimiento, pruebe Naivebayes, discretice los datos e intente árboles de decisión y reglas de asociación.
Todo esto lo ayudará a comprender los datos y también le proporcionará algunos resultados comprensibles.

Pero desea más precisión, intente la regresión logística, luego SVM. Finalmente usaría una mezcla de estos modelos.

Related Content

¿Cuál es la diferencia entre TensorFlow y TensorFlow lite?

¿Cuáles son las diferentes técnicas de minería de texto?

En la capacitación de CNN, ¿también se actualizan los pesos correspondientes al mapa de características?

¿Por qué los científicos no definen la inteligencia de tal manera que pueda implementarse artificialmente en un software, como si pudiéramos crear luz artificialmente?

¿Debo abandonar mi programa de doctorado CS para estudiar por mi cuenta?

¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?

En el aprendizaje de características, ¿cuál es la regla general para decidir el número de parches aleatorios y el número de iteraciones / épocas con respecto al número deseado de nodos / longitud de la característica?

Los tipos de características sin procesar y derivadas para el fraude de transacciones en ATM pueden incluir:

Máquina, como ubicación (por ejemplo, al lado del supermercado, latitud, longitud), marca y edad.
Cliente, como información demográfica (por ejemplo, código postal) y de comportamiento
Tarjeta, como tipo (p. Ej. Visa, suplementaria, emitida ayer) y uso
Sesión y transacción, como día de la semana, hora del día, pulsaciones de teclas (por ejemplo, número de intentos de inicio de sesión), tipo de transacción y cantidad

Ohad Samet

Su enfoque no tiene que ser probabilístico.

Si tiene un millón, supongo que tiene varios retiros por cuenta. Observe las desviaciones de los retiros de referencia por hora del día, cantidad, ubicación en comparación con la ubicación anterior. Mire la ubicación del cajero automático en comparación con la ubicación del banco emisor.

Ohad Samet

More Interesting

¿Qué significa una probabilidad gaussiana en el clasificador bayesiano ingenuo gaussiano?

¿Hay alguna manera de usar Machine Learning para predecir el resultado de un lanzamiento de moneda?

Cómo convertirse en un cerebro cuant (un quant que usa IA)

¿Qué computadora necesito para trabajar en aprendizaje profundo y redes neuronales?

¿Por qué podría mejorarse el arrepentimiento del bandido lineal mediante una proyección aleatoria?

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo después de los 30 años?

Cómo corregir el sobreajuste

¿Cuál es la mejor manera de aprender Python si mi objetivo es usarlo específicamente para el aprendizaje automático?

¿En qué áreas de la banca / finanzas se utiliza el aprendizaje automático?

¿Cuáles son las aplicaciones del aprendizaje profundo en la India?

¿Cómo funcionan los RBM? ¿Cuáles son algunos buenos casos de uso y algunos buenos artículos recientes sobre el tema?

¿Cuáles son algunas optativas de matemáticas avanzadas útiles para un estudiante universitario en CS (junior) que se inclina hacia el aprendizaje automático para la escuela de posgrado?

Cómo aplicar en la práctica PCA a la agrupación de trayectorias

¿Cómo resolverías el siguiente diagrama de perceptrón?

¿Crees que es posible generar historias, pistas dadas, usando técnicas de PNL?

Web Analytics