¿Qué estrategias sugiere para resolver este problema de detección de fraude en un negocio minorista y de suministro con minería de datos y análisis de datos?

Este es un problema bastante complicado con muchas variables y muchas partes en la cadena que pueden romperse. Como resultado, no voy a analizar todo lo que se puede hacer en este momento, podrían ser muchas páginas de trabajo (y la gente aprovecha mucho los proyectos de consultoría como este 😉), pero lo que haré es ofrecer Algunas recomendaciones:

En fraude, una de las ventajas que HQ tiene sobre todos los demás es que es muy poco probable que alguno de los proveedores que cometen fraude trabajen juntos. Como resultado, toman decisiones con poco conocimiento del panorama general, mientras que usted puede ver lo que todos están haciendo. Usted tiene muchos más datos y ellos adivinan mucho más sobre cómo debería ser el comportamiento “normal”. Como resultado, las aberraciones en los datos se identifican más fácilmente porque tiene los datos generales de rendimiento y luego uno o dos que podrían estar fuera de lo común. Si usa los datos de todos los proveedores y crea una variedad de modelos, atrapará mucha basura.

Dos conceptos que puede seguir y que definitivamente pueden ser efectivos son los siguientes:

1) Mecanismos de aprendizaje automático / IA, tales como: clasificación de árboles / SVM / bosque aleatorio / aumento / embolsado / etc … para juzgar la probabilidad de que una determinada transacción sea fraudulenta (en general, el rendimiento de estos aumentará si recopila más características sobre cada transacción, por ejemplo, datos potencialmente estacionales, información sobre cada proveedor, macro-medición del volumen general del proveedor a lo largo del tiempo, etc. Hay tantas maneras de hacer todo esto y ajustarlo que podría pasar toda la vida trabajando en este tipo de cosas (y de hecho lo hacen varias personas) y hacerlo efectivo (así es como se detecta la gran mayoría del fraude digital) .

2) Modelos probabilísticos para realizar la detección de anomalías. Esto podría ajustarse aún más si hiciera un buen trabajo con su propio análisis de curva de demanda sobre la cantidad de su producto que espera vender en un momento dado; a veces, descubrir que hay problemas de nivel macro en un momento dado es bastante útil para decirle que inspeccione los grupos más pequeños de manera más efectiva.

En general, cuanta más información pueda obtener sobre estas transacciones, mejor se dará cuenta de lo que realmente está sucediendo. Además, no importa qué tan buen trabajo hagas aquí, las personas comenzarán a descubrir qué cosas los atrapan y harán cambios, y luego tendrás que hacer cambios y así sucesivamente.

Además, este no es un problema de tecnología pura, en absoluto. También hay una serie de soluciones relacionadas con el programa que podría buscar en términos de visitas / mejor prueba de transacción / encuestas a clientes finales / auditorías independientes / etc. etc. Si pregunta a suficientes personas en un proveedor, es muy poco probable que la historia de todos sea perfecta si están cometiendo fraude A veces, las técnicas antiguas y clásicas son las mejores si sabes que algo está mal. La tecnología debería ser una forma de darle una ventaja adicional y tratar de mitigar de manera más efectiva y rápida su riesgo financiero y operativo.

More Interesting

¿Cómo manejas los datos faltantes (estadísticas)? ¿Qué técnicas de imputación recomienda o sigue?

Cómo extraer grandes conjuntos de datos de registros médicos

¿Qué tan grandes son los componentes necesarios para acceder a los datos desde Wi-Fi?

¿Qué escuela es mejor para la ciencia de datos? Master of Computer Science - Data Science en UIUC o Master of Information - Data Science en UC Berkeley

Cómo desechar datos a través de Python

¿Cuál es la forma de explorar mis datos más fácilmente?

Cuando los departamentos universitarios cambian su nombre para incluir la palabra 'Ciencia de datos', ¿se trata principalmente de marketing?

¿Por qué la gente está tan loca por Hadoop?

¿Cómo podemos analizar un conjunto de datos que es completamente (tanto X como Y) de naturaleza categórica?

¿Es la aplicación del sistema de semáforo de álgebra lineal? ¿Si es así, entonces cómo? Explicar brevemente.

Si quiero hacer ciencia de datos, ¿es una buena manera de hacerlo si estudio estadísticas?

Cómo extraer el registro DNS de un sitio web para compartir videos (YouTube) para combatir el terrorismo

El ícono de Machine Learning Xavier Amatriain dejó recientemente Netflix para unirse a Quora como vicepresidente de ingeniería. ¿Qué hará él allí? ¿Qué hizo a Quora lo suficientemente interesante como para unirse? ¿Qué nos tiene reservado Quora?

¿Existen técnicas de ciencia de datos para un marketing masivo más efectivo?

¿Ganar una competencia de Kaggle es importante fuera de Kaggle?