Resulta que esto ha sido ampliamente estudiado; de hecho, esta fue una de las primeras aplicaciones de los árboles de decisión. El repositorio de UCI contiene varios conjuntos de datos de solvencia y / o aprobación de crédito que incluyen:
- http://archive.ics.uci.edu/ml/da… (¡23 años!)
- http://archive.ics.uci.edu/ml/da…
Un enfoque de conjunto de árboles de regresión (embolsado, refuerzo, bosque aleatorio) o un enfoque de máquina de vectores de soporte serían las mejores opciones aquí.
Personalmente, los árboles de regresión en bolsas probablemente harían bastante bien aquí. Es probable que algunos atributos sean no paramétricos o discretos, que son más fáciles de construir en un modelo de árbol de regresión.
- En la industria, ¿con qué frecuencia se usa el algoritmo de compresión Lempel-Ziv-Welch?
- ¿Dónde puedo conectarme en línea para estudiar estructuras de datos, como árboles de búsqueda binarios, montones, etc.?
- Cómo demostrar que el algoritmo de búsqueda uniforme de costos siempre genera una ruta óptima
- ¿Puedo encontrar el camino hamiltoniano más corto en un gráfico completo ponderado no dirigido en tiempo polinómico (donde todos los pesos no son negativos)?
- ¿Cuál es el algoritmo más complicado por el que has pasado?
Si desea utilizar máquinas de vectores de soporte, eso también podría funcionar si pudiera encontrar una manera de normalizar los atributos.
El vecino más cercano se acerca y Naive Bayes probablemente no funcionaría muy bien. El vecino más cercano tendría problemas de distancia. Los ingenuos bayes no podrían expresar las complejas relaciones variables.