¿Cuáles son las características que planea usar? Su conjunto de datos no está etiquetado, ¿hay alguna forma de validar las etiquetas que asigna? es decir, si marca una transacción como fraude, ¿podrá validarla? Los SVM son geniales, pero sin etiquetas no ayuda y, en tales casos, también le gustaría entender por qué es un fraude. Entonces, teniendo en cuenta todo esto, comenzaría con una simple detección gaussiana basada en la distribución de anamolias, si las etiquetas pueden validarse, comience con bayes Naive. Hay una extensión de detección de anamolias para Rapidminer, que puede encontrar anamolias al agruparlas también. Actualice la pregunta thr con más detalles sobre mis preguntas, para obtener una respuesta más específica. Espero que ayude.
EDITAR:
Comenzaría con un conjunto simple de características como monto retirado, saldo actual, días desde el último retiro, último monto retirado, promedio (monto retirado), min (..), max (..) y así sucesivamente. Creo que obtienes la idea..
- ¿Cuáles son los temas más comunes omitidos de los cursos de aprendizaje automático?
- ¿Es la memoria y la potencia informática paralela masiva del cerebro más útil para el "entrenamiento" o la "prueba"?
- ¿Cómo se infiere la distribución posterior marginal?
- ¿Cuáles son los campos de negocios donde se puede usar la red neuronal?
- ¿Cómo se entrenan las redes neuronales de factor latente?
La clave importante aquí es normalizar los datos, normalizar cada registro específico a las estadísticas del cliente correspondiente. Puede leer más sobre la normalización aquí en mi blog, Preprocesamiento de datos – Normalización. por ejemplo, si elige hacer la normalización min max, los min y max utilizados deben ser los min y max del cliente correspondiente. Esto asegurará que todos sus valores estén dentro del rango (0,1) sin perder la información relevante para el cliente.
Ahora comience con una simple detección de anomalías basada en Gauss, vea el rendimiento, pruebe Naivebayes, discretice los datos e intente árboles de decisión y reglas de asociación.
Todo esto lo ayudará a comprender los datos y también le proporcionará algunos resultados comprensibles.
Pero desea más precisión, intente la regresión logística, luego SVM. Finalmente usaría una mezcla de estos modelos.