Este es un problema bastante complicado con muchas variables y muchas partes en la cadena que pueden romperse. Como resultado, no voy a analizar todo lo que se puede hacer en este momento, podrían ser muchas páginas de trabajo (y la gente aprovecha mucho los proyectos de consultoría como este 😉), pero lo que haré es ofrecer Algunas recomendaciones:
En fraude, una de las ventajas que HQ tiene sobre todos los demás es que es muy poco probable que alguno de los proveedores que cometen fraude trabajen juntos. Como resultado, toman decisiones con poco conocimiento del panorama general, mientras que usted puede ver lo que todos están haciendo. Usted tiene muchos más datos y ellos adivinan mucho más sobre cómo debería ser el comportamiento “normal”. Como resultado, las aberraciones en los datos se identifican más fácilmente porque tiene los datos generales de rendimiento y luego uno o dos que podrían estar fuera de lo común. Si usa los datos de todos los proveedores y crea una variedad de modelos, atrapará mucha basura.
Dos conceptos que puede seguir y que definitivamente pueden ser efectivos son los siguientes:
- ¿Cuáles son las principales diferencias entre Python y R para la ciencia de datos?
- ¿Cómo podemos crecer programadores principiantes como ciencia de datos profesional durante unos meses?
- ¿Existe algún programa de capacitación de big data en línea?
- ¿La programación es una ciencia? Si es así, ¿por qué nadie usa el núcleo de la ciencia, el método científico, para ello?
- ¿Qué tipo de proyectos tiene un científico de datos en su currículum?
1) Mecanismos de aprendizaje automático / IA, tales como: clasificación de árboles / SVM / bosque aleatorio / aumento / embolsado / etc … para juzgar la probabilidad de que una determinada transacción sea fraudulenta (en general, el rendimiento de estos aumentará si recopila más características sobre cada transacción, por ejemplo, datos potencialmente estacionales, información sobre cada proveedor, macro-medición del volumen general del proveedor a lo largo del tiempo, etc. Hay tantas maneras de hacer todo esto y ajustarlo que podría pasar toda la vida trabajando en este tipo de cosas (y de hecho lo hacen varias personas) y hacerlo efectivo (así es como se detecta la gran mayoría del fraude digital) .
2) Modelos probabilísticos para realizar la detección de anomalías. Esto podría ajustarse aún más si hiciera un buen trabajo con su propio análisis de curva de demanda sobre la cantidad de su producto que espera vender en un momento dado; a veces, descubrir que hay problemas de nivel macro en un momento dado es bastante útil para decirle que inspeccione los grupos más pequeños de manera más efectiva.
En general, cuanta más información pueda obtener sobre estas transacciones, mejor se dará cuenta de lo que realmente está sucediendo. Además, no importa qué tan buen trabajo hagas aquí, las personas comenzarán a descubrir qué cosas los atrapan y harán cambios, y luego tendrás que hacer cambios y así sucesivamente.
Además, este no es un problema de tecnología pura, en absoluto. También hay una serie de soluciones relacionadas con el programa que podría buscar en términos de visitas / mejor prueba de transacción / encuestas a clientes finales / auditorías independientes / etc. etc. Si pregunta a suficientes personas en un proveedor, es muy poco probable que la historia de todos sea perfecta si están cometiendo fraude A veces, las técnicas antiguas y clásicas son las mejores si sabes que algo está mal. La tecnología debería ser una forma de darle una ventaja adicional y tratar de mitigar de manera más efectiva y rápida su riesgo financiero y operativo.