No existe el mejor algoritmo para la detección de fraudes. El campo es muy amplio y requiere diferentes técnicas algorítmicas para diferentes tipos de detección. Si se refiere al aprendizaje supervisado, por ejemplo, predecir el fraude frente al no fraude, entonces se utilizan comúnmente técnicas como la regresión logística, el bosque aleatorio, las máquinas con aumento de gradiente (GBM), etc. Mi favorito personal es GBM porque lo he visto “ganar” con más frecuencia que otras técnicas. Por ejemplo, si ejecuté los tres algoritmos mencionados anteriormente en 100 conjuntos de datos, GBM sería mejor para 40 de esos conjuntos de datos, mientras que el bosque aleatorio y la regresión logística son mejores para 30 conjuntos de datos cada uno (estos son números hipotéticos). Pero dado un nuevo conjunto de datos, no sabré qué algoritmo produce el mejor resultado hasta que realmente los haya probado todos.
Por supuesto, gran parte de la detección de fraude consiste en un aprendizaje no supervisado donde la agrupación, las reglas de asociación y los métodos de detección de anomalías son útiles. Pero también encuentro que las comparaciones simples de estadísticas resumidas son igualmente útiles. Por ejemplo, si un proveedor médico generalmente trata a dos de los pacientes asegurados de mi empresa por año y promedia 10 procedimientos por paciente, pero luego veo a un proveedor que trata a 15 pacientes en un año y promedia 50 procedimientos por paciente, entonces sería muy sospechoso y motivos para una mayor investigación.
- ¿Qué factores principales distinguen las estructuras de datos avanzadas y elementales?
- ¿Cuáles son las aplicaciones del algoritmo de la Torre de Hanoi?
- ¿Cómo podría implementar un gráfico inductivo en Haskell?
- ¿Se conoce algún algoritmo general para factorizar números muy grandes?
- Cómo implementar un hashing sensible a la localidad