¿Cuál es el mejor algoritmo para calcular automáticamente un puntaje de crédito?

Resulta que esto ha sido ampliamente estudiado; de hecho, esta fue una de las primeras aplicaciones de los árboles de decisión. El repositorio de UCI contiene varios conjuntos de datos de solvencia y / o aprobación de crédito que incluyen:

  • http://archive.ics.uci.edu/ml/da… (¡23 años!)
  • http://archive.ics.uci.edu/ml/da…

Un enfoque de conjunto de árboles de regresión (embolsado, refuerzo, bosque aleatorio) o un enfoque de máquina de vectores de soporte serían las mejores opciones aquí.

Personalmente, los árboles de regresión en bolsas probablemente harían bastante bien aquí. Es probable que algunos atributos sean no paramétricos o discretos, que son más fáciles de construir en un modelo de árbol de regresión.

Si desea utilizar máquinas de vectores de soporte, eso también podría funcionar si pudiera encontrar una manera de normalizar los atributos.

El vecino más cercano se acerca y Naive Bayes probablemente no funcionaría muy bien. El vecino más cercano tendría problemas de distancia. Los ingenuos bayes no podrían expresar las complejas relaciones variables.

Es un problema de regresión.
La regresión de gradiente estocástica se puede usar si el conjunto de datos es enorme.
Aunque muchos trabajos de investigación (he visto algunos) sugieren CART / MARS y otros algoritmos de árbol de decisión también.

Cualquier algoritmo de aprendizaje automático mencionado funciona bien si puede diseñar las características de manera agradable. La selección de características (envoltura / filtros / algoritmos genéticos) ayuda a aumentar la eficiencia del algoritmo de aprendizaje.

Y el análisis de errores es obligatorio, evitará el sobreajuste del modelo y le brindará un conocimiento justo de la varianza y el sesgo. Por ejemplo, si su modelo tiene una alta varianza, es útil obtener más datos de entrenamiento y mejorar la función el modelo.
Generalmente uso estos algoritmos y selecciono el mejor usando un extenso análisis de errores.
Puedes consultar esta hoja de trucos
Error y Algoritmo respectivamente

referencia: – Página en scikit-learn.org

Aquí hay un artículo seminal de 2003.

Aquí hay un seguimiento de 2015, 12 años después.

Alerta de spoiler: no hay “bala de plata”.

Hay muchas piezas que deben tenerse en cuenta para determinar “el mejor” algoritmo para la calificación crediticia.

Aunque el poder de clasificación es una forma muy común de medir el éxito de la calificación crediticia, el éxito final en la calificación crediticia se determina a partir de un análisis de costo / beneficio. El beneficio es la cantidad de ingresos adicionales netos de pérdidas posibles utilizando el puntaje de crédito, y el costo es el costo de desarrollo, implementación y mantenimiento de dicho puntaje de crédito.

Los métodos más simples pueden tener menor precisión y, por lo tanto, generar menos beneficios, sin embargo, también pueden ser menos costosos de desarrollar, implementar y mantener. Los métodos más complejos generalmente son posibles a un costo más alto.

El éxito también varía según el uso. Dos puntajes pueden tener exactamente el mismo valor métrico de poder de clasificación, pero producen resultados diferentes para la misma tasa de aceptación, porque uno es bueno para discriminar a los solicitantes de mayor riesgo y el otro es bueno para discriminar a los solicitantes de menor riesgo.

En pocas palabras, todo depende del uso y las compensaciones de costo / beneficio, y no solo de clasificar las métricas de potencia.

More Interesting

Como principiante, ¿debería leer el libro CLRS antes de comenzar con Interviewbit?

¿Cuál es la mejor práctica para el aprendizaje de algoritmos y programación?

¿Cómo puedo aprender los algoritmos de resolución de problemas solo?

¿Es cierto que si entendemos los algoritmos podemos entender todos los programas difíciles de todos los idiomas?

Si ASCII es binario a texto, ¿cuál es la relación entre binario a imagen?

¿Cómo funciona el algoritmo de vista en Quora?

La mayoría de las definiciones / teoremas / ejemplos de privacidad diferencial que he encontrado son para consultas que devuelven un solo número por columna, como un promedio. ¿Existen mecanismos diferencialmente privados para otros tipos de consultas, como los que subconjustan filas en función de algún criterio?

¿Cuál es el proceso de un algoritmo de red neuronal convolucional para un OCR?

Deje G (V, E) ser un gráfico conectado, no dirigido, dar un algoritmo O (| V | + | E |) para calcular una ruta en G que atraviesa cada borde en E exactamente una vez en cada dirección?

Además de la complejidad de tiempo y espacio, ¿qué otras métricas de rendimiento deben tenerse en cuenta al medir el rendimiento de un algoritmo?

¿Cuáles son los principios o características esenciales de los algoritmos gráficos en informática?

Cómo obtener el vértice extremo de un gráfico

¿Cómo explicarías un 'arreglo' a un principiante en programación?

Tengo la cadena de entrada, también tengo la cadena encriptada. ¿Cómo averiguo qué algoritmo de cifrado se utilizó?

¿Cuáles son los diferentes enfoques que uno puede tomar para mejorar la precisión dado un conjunto de datos además de probar diferentes algoritmos en el aprendizaje automático?