¿Qué algoritmo es el más adecuado para la detección de fraudes en términos de precisión y consistencia en la minería de datos?

No existe el mejor algoritmo para la detección de fraudes. El campo es muy amplio y requiere diferentes técnicas algorítmicas para diferentes tipos de detección. Si se refiere al aprendizaje supervisado, por ejemplo, predecir el fraude frente al no fraude, entonces se utilizan comúnmente técnicas como la regresión logística, el bosque aleatorio, las máquinas con aumento de gradiente (GBM), etc. Mi favorito personal es GBM porque lo he visto “ganar” con más frecuencia que otras técnicas. Por ejemplo, si ejecuté los tres algoritmos mencionados anteriormente en 100 conjuntos de datos, GBM sería mejor para 40 de esos conjuntos de datos, mientras que el bosque aleatorio y la regresión logística son mejores para 30 conjuntos de datos cada uno (estos son números hipotéticos). Pero dado un nuevo conjunto de datos, no sabré qué algoritmo produce el mejor resultado hasta que realmente los haya probado todos.

Por supuesto, gran parte de la detección de fraude consiste en un aprendizaje no supervisado donde la agrupación, las reglas de asociación y los métodos de detección de anomalías son útiles. Pero también encuentro que las comparaciones simples de estadísticas resumidas son igualmente útiles. Por ejemplo, si un proveedor médico generalmente trata a dos de los pacientes asegurados de mi empresa por año y promedia 10 procedimientos por paciente, pero luego veo a un proveedor que trata a 15 pacientes en un año y promedia 50 procedimientos por paciente, entonces sería muy sospechoso y motivos para una mayor investigación.

Las redes neuronales bayesianas han demostrado ser bastante beneficiosas para la detección de fraudes si desea utilizar el aprendizaje supervisado.

Para obtener información detallada y ejemplos, puede consultar esto: http://ojs.jdfsl.org/index.php/j

Diferentes conjuntos de datos tienen diferentes idoneidades de algoritmos. Quizás, el algoritmo Random Forest puede ser adecuado para su propósito. Sin embargo, juegue con otras alternativas y seleccione la que pueda manejar mejor y la que encuentre mejor en la validación cruzada.

More Interesting

Cómo dibujar un contorno vectorial en una matriz de cuadrícula binaria

En el algoritmo EM, ¿debería aumentar el valor de la función objetivo a través de cada M-STEP?

¿Es posible construir un algoritmo (para ejecutar en una computadora con recursos de espacio finito) que tomará como entrada un flujo de lanzamientos de monedas al azar imparciales (probabilidad independiente de caras 1/2) y emitirá caras con probabilidad irracional esperada?

¿Cómo funcionan los algoritmos bayesianos para la identificación de spam?

Cómo comenzar a hacer mi propia solución de divide y vencerás

Cómo realizar una operación de revolución usando un treap

Después de aprender Python (junto con algoritmos y estructuras de datos), ¿sería beneficioso para mí aprender Selenium o debería seguir alguna otra búsqueda? Ya trabajo con Node.js, ¿hay algo más además de Django?

Cómo saber si un algoritmo es [matemática] O (n) [/ matemática], [matemática] O (2n) [/ matemática] o [matemática] O (n ^ 2) [/ matemática]

¿Cuáles son las aplicaciones en tiempo real del árbol binario enhebrado?

¿Cuál es la diferencia entre tener un buen algoritmo y no tener uno?

Cómo guardar un árbol binario en una matriz de recorrido en orden

¿Por qué la búsqueda de Breadth-first (y otros algoritmos relacionados) se consideran parte del campo de IA?

¿Cuáles son algunas de las mejores plataformas en línea para practicar la codificación relacionada con algoritmos?

¿Cuál es la diferencia entre el problema del vendedor ambulante y el problema del árbol de expansión mínima?

¿Qué son las estrategias de diseño de algoritmos?