Cómo detectar generalmente un fraude usando análisis

Nunca lo había hecho antes, pero esto suena como un problema típico de clasificación.

El objetivo es utilizar el aprendizaje estadístico / automático para entrenar un modelo que identifique con éxito el grupo al que debe pertenecer una observación. Es parte de una serie de problemas de aprendizaje supervisados.

Por ejemplo, un niño pequeño puede ver un perro por primera vez y se le puede decir “esto es un perro”. Él / ella puede notar las características que tiene el perro: pelaje marrón, una cola, cuatro patas, hasta la cintura … entiendes. En cuanto ven a un animal, puede intentar clasificarlo como perro. Pero tal vez, esta vez, se encontró con un gato. Este es un error falso positivo / tipo 1, ya que pensó que la nueva observación era lo que estaba buscando, y que la observación no lo era. Alternativamente, pueden ver un perro de aspecto muy extraño, un chihuahua, por ejemplo, y decir que “esto no es un perro”, a lo que se les dirá “sí, lo es”. Eso es un falso negativo / error tipo 2. Con el tiempo, el niño aprende qué características constituyen un perro y puede corregir / entrenar su modelo mental con el tiempo para hacerlo más y más preciso.

Lo mismo sucede con el aprendizaje automático. Podemos alimentar a un modelo con un conjunto de capacitación de datos de fraude etiquetados. Los datos tendrían ejemplos de fraude y no fraude, y las observaciones tendrían una serie de características como (fuera de mi cabeza):

Punto de compra (geográfico)
Uso de cajero automático (continuo)
Edad del titular de la tarjeta (continua)
Frecuencia de uso de la tarjeta (continua)
Tipo de compra (categórica)
Tiempo de compra (continuo)
Fraude (sí / no)

El modelo puede recibir capacitación sobre estas características para predecir el fraude e identificar lo que puede constituir una observación fraudulenta. Esto puede hacerse tal vez, más simplemente, con regresión logística. Existen varios otros métodos que pueden usarse para predecir una variable binaria / binomial como esta.

Una vez que haya completado esto y entrenado su modelo, y esté haciendo predicciones bastante precisas, puede implementar su modelo en un producto de software que una empresa puede usar para garantizar continuamente que las transacciones de sus clientes no sean fraudulentas.

La parte difícil no es construir el modelo; Lo está optimizando. Porque tener una precisión de predicción del 79% o una precisión de predicción del 97% puede significar mucho para una empresa, especialmente si el fraude le puede costar millones de dólares. Creo que optimizar y aumentar la precisión de la predicción es donde la minería de datos y el aprendizaje automático se vuelven difíciles.

Aquí hay un proyecto visual muy intuitivo (y bonito) para explicar mejor qué es el modelado de clasificación: Una introducción visual al aprendizaje automático

Gracias por A2A!

¿Cuáles son algunas de las principales conferencias de ciencia de datos y análisis en India?

¿Cuál de los siguientes cursos debería elegir, big data y Hadoop o data science? ¿Cuál de los cursos anteriores tiene más alcance en el futuro? Tengo 1,5 años de experiencia como desarrollador de Java.

¿Cuál es el mejor programa de ciencia de datos?

¿Por qué debería aprender sobre el análisis de datos para mi trabajo?

¿Por qué una chispa de electricidad estática en un Macbook hace que un monitor externo se quede en blanco y luego se vuelva a encender?

¿Cuáles son algunas iniciativas / compañías involucradas en el uso de la ciencia de datos para combatir el crimen, principalmente el tráfico de personas?

El análisis gráfico (también conocido como análisis de red / enlace) es una excelente manera de detectar el fraude. Aquí hay una imagen genial cortesía de neo4j:

Al analizar los vínculos entre varias entidades, se puede determinar la probabilidad de eventos fraudulentos, como el escenario de accidente automovilístico que se muestra arriba. Esta técnica se ha aplicado con éxito a muchas industrias, como servicios financieros, seguros, atención médica, comercio electrónico, etc.

También quiero abordar la sugerencia de detección de anomalías para detección de fraude. Para tener éxito, la detección de anomalías siempre debe usarse junto con el conocimiento del dominio. Si simplemente reúne todos sus datos y trata de buscar cualquier tipo de anomalía, encontrará fácilmente un montón de ellos. Pero la mayoría son simplemente eventos raros, no eventos fraudulentos.

Paras Doshi

Primero lo primero , seguramente comenzaría con lo que otros han sugerido:

Métodos supervisados (para clasificación desequilibrada)
Sin supervisión (anomalía / detección de valores atípicos / gráficos)
Reglas del negocio

Una vez que los haya implementado , también consideraría probar ideas aparentemente más divergentes / avanzadas (por falta de mejores palabras) como estas. Esto puede requerir más recursos de cómputo y más esfuerzo para ser puesto en producción.

Aprendizaje multitarea
Agregar características de cualquier información no estructurada (por ejemplo, imágenes / texto)
One shot Learning
Predicción de secuencia

Consulte a continuación para obtener más detalles sobre estos.

La respuesta de Satendra Kumar a ¿Podría el aprendizaje profundo revolucionar la detección de fraudes? En caso afirmativo, ¿cómo traduciría el problema de detección de fraude en uno de aprendizaje profundo?

Ricardo Vladimiro

Existen dos amplios algoritmos que pueden ayudarlo a detectar el fraude: 1) clasificación (supervisada) 2) agrupamiento (sin supervisión)

Ahora es una suposición justa que el fraude es bastante raro y es un valor atípico en sus datos. En otras palabras, es una anomalía y el proceso de identificarlos se llama Detección de anomalías .

Entonces, bajo clasificación, existen algoritmos especializados en la detección de “anomalías” como la detección de anomalías basada en SVM y PCA de una clase. Pruébelos en su conjunto de datos y vea si puede capturar “anomalías” en su conjunto de datos. Mientras lo hace, no descarte tampoco los algoritmos de clasificación tradicionales, también pueden ser útiles. Tendrá que entrenar estos algoritmos y es por eso que se llaman “supervisados”.

Hay un enfoque alternativo. Lo cual es utilizar algoritmos no supervisados llamados técnicas de “agrupamiento”. Podrías probar algo tan simple como K-means o algo más sofisticado. No he utilizado mucho el agrupamiento para resolver problemas de fraude y, por lo general, me he referido a algoritmos de detección de anomalías para esto. ¡Pero estoy lanzando esto para asegurarme de que conoces todas las opciones! Puedo ver que estos algoritmos se aplican al análisis exploratorio en el que solo está explorando sus datos para encontrar valores atípicos para estudiarlos.

¡Espero que ayude!

Feyzi Bagirov

¿Cuál es el fraude para su problema?

-¿Alguien no te devolvió el dinero?

-¿Es alguien que te deja temprano haciendo tu pérdida?

-¿Es alguien que infringe los límites comunes / promedio de su transacción?

Depende de lo que sea fraude para usted, tome datos pasados de todos sus clientes y agregue una columna más nuevamente a esos datos individuales. Usted ha sabido qué clientes habían cometido fraude: agregue “1” a ellos. Para otros agregue cero.

Ahora tiene los datos correctos para ejecutar sus modelos. Uno de buen modelo le dará una ecuación que incluya sus variables importantes (columnas) de clientes. Ahora aplique esta ecuación a nuevos clientes.

Esta es una forma muy generalizada de abordar los fraudes en análisis. Si tiene alguna pregunta específica, no dude en preguntar.

[Si te gusta mi respuesta, cuídame. No perderé tu tiempo. Estoy abierto para trabajos de consultoría y nuevos desafíos en ciencia de datos, comuníquese con mi perfil de Linkedin]

Akash Dugam

Utiliza un algoritmo de detección de valores atípicos.

Riyaj Shaikh

More Interesting

¿Cuál es la relación exacta entre Hadoop y Big Data?

¿Vale la pena pagar el campamento de datos por Python?

¿Cómo cambiará el mercado laboral de la ciencia de datos en los próximos diez años?

Estoy planeando obtener la admisión para MS Data Science. ¿Alguien puede sugerirme las mejores universidades en las que pueda ingresar y tener buenos aspectos futuros?

¿Cuáles son los paquetes R más utilizados para la minería de datos o la ciencia de datos?

¿Cuáles son algunas aplicaciones modernas de clasificación en minería de datos?

¿Qué clases de CS son las más importantes para un ingeniero de big data?

Al hacer una prueba A / B sobre la tasa de conversión (proporción de visitas que incluyen una compra), ¿cómo abordo el hecho de que no todas las visitas son independientes?