Transforma todos los valores en números. Por ejemplo, “Dirección” se puede transformar en “Distancia desde el hogar” y las categorías: “Gas” / “En línea” / “Minorista” irán en 3 números [1,0,0], [0,1,0] y [0,0,1] (un error común aquí es asignar 1,2,3 a las categorías).
Obtenga un paquete ANN (aprendizaje profundo, por ejemplo, en TFLearn) y entrene su red con sus datos (espero que ya tenga un gran conjunto de capacitación que contenga tanto fraude como no fraude). Dividirá estos datos en dos conjuntos, entrenamiento y prueba. Usa el entrenamiento para entrenar tu ANN y luego prueba para determinar la precisión. Si no tiene una buena precisión / recuperación / precisión, significa que los datos que tiene son irrelevantes para el problema (como si tratara de decidir fraude / no fraude en función del tamaño del zapato del usuario) o, más probablemente, tiene un error en el ANN.
Particularmente a este problema, creo que enviar una gran tabla de transacciones de hechos (con ID de usuario como columna) es un error, ya que esto no permitirá que ANN conozca el comportamiento del usuario. Más bien, trate de tener la transacción actual a un lado con 9 transacciones relevantes pasadas, de modo que la característica de convolución entre en acción y “modele” el comportamiento del usuario.
- ¿Qué tan popular y extendido es el aprendizaje automático en África?
- ¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?
- ¿Cuáles son algunos de los mejores algoritmos de aprendizaje automático, considerando la eficiencia, la facilidad de implementación, etc.?
- ¿Necesita normalización de características después de la reducción de dimensiones para la clasificación?
- ¿El aprendizaje automático no supervisado basado en la agrupación de datos también determina automáticamente la cantidad de agrupaciones?