Nunca lo había hecho antes, pero esto suena como un problema típico de clasificación.
El objetivo es utilizar el aprendizaje estadístico / automático para entrenar un modelo que identifique con éxito el grupo al que debe pertenecer una observación. Es parte de una serie de problemas de aprendizaje supervisados.
Por ejemplo, un niño pequeño puede ver un perro por primera vez y se le puede decir “esto es un perro”. Él / ella puede notar las características que tiene el perro: pelaje marrón, una cola, cuatro patas, hasta la cintura … entiendes. En cuanto ven a un animal, puede intentar clasificarlo como perro. Pero tal vez, esta vez, se encontró con un gato. Este es un error falso positivo / tipo 1, ya que pensó que la nueva observación era lo que estaba buscando, y que la observación no lo era. Alternativamente, pueden ver un perro de aspecto muy extraño, un chihuahua, por ejemplo, y decir que “esto no es un perro”, a lo que se les dirá “sí, lo es”. Eso es un falso negativo / error tipo 2. Con el tiempo, el niño aprende qué características constituyen un perro y puede corregir / entrenar su modelo mental con el tiempo para hacerlo más y más preciso.
- Cómo sentirse acerca de los datos
- ¿En qué se diferencian los proyectos de aprendizaje automático de los proyectos de ciencia de datos?
- ¿Cuáles son las mejores escuelas para programas de ciencia de datos?
- Cómo proceder para obtener datos registrados en los parámetros de un equipo de Minería usando sensores
- ¿Qué tipo de análisis de datos puedo hacer en las redes sociales usando R?
Lo mismo sucede con el aprendizaje automático. Podemos alimentar a un modelo con un conjunto de capacitación de datos de fraude etiquetados. Los datos tendrían ejemplos de fraude y no fraude, y las observaciones tendrían una serie de características como (fuera de mi cabeza):
- Punto de compra (geográfico)
- Uso de cajero automático (continuo)
- Edad del titular de la tarjeta (continua)
- Frecuencia de uso de la tarjeta (continua)
- Tipo de compra (categórica)
- Tiempo de compra (continuo)
- Fraude (sí / no)
El modelo puede recibir capacitación sobre estas características para predecir el fraude e identificar lo que puede constituir una observación fraudulenta. Esto puede hacerse tal vez, más simplemente, con regresión logística. Existen varios otros métodos que pueden usarse para predecir una variable binaria / binomial como esta.
Una vez que haya completado esto y entrenado su modelo, y esté haciendo predicciones bastante precisas, puede implementar su modelo en un producto de software que una empresa puede usar para garantizar continuamente que las transacciones de sus clientes no sean fraudulentas.
La parte difícil no es construir el modelo; Lo está optimizando. Porque tener una precisión de predicción del 79% o una precisión de predicción del 97% puede significar mucho para una empresa, especialmente si el fraude le puede costar millones de dólares. Creo que optimizar y aumentar la precisión de la predicción es donde la minería de datos y el aprendizaje automático se vuelven difíciles.
Aquí hay un proyecto visual muy intuitivo (y bonito) para explicar mejor qué es el modelado de clasificación: Una introducción visual al aprendizaje automático
Gracias por A2A!