¿Cuándo debe usarse el bosque aleatorio sobre la regresión logística para la clasificación y viceversa?

Cuando funciona mejor El consejo habitual es aplicar ambos y ver qué pasa.

Pero debes definir “mejor”.

¿Más predictivo?
¿Más rápido?
¿Más escalable?
¿Más interpretable?

Los modelos de aprendizaje automático se evalúan empíricamente. La teoría nos dice que no hay un modelo único que funcione mejor en todos los conjuntos de datos posibles. Eso sugiere que deberíamos esperar usar diferentes modelos para diferentes aplicaciones.

Algunas veces usará la regresión logística incluso cuando sea menos predictiva porque es más interpretable o más rápida. Por ejemplo, si el propósito de un modelo es ayudar a otros a tomar una decisión o si el modelo está bajo escrutinio regulatorio (piense en finanzas o medicina), la regresión logística es más fácil de explicar.

Para los modelos con millones de características dispersas, la regresión logística será mucho más rápida de entrenar y ejecutar, y es menos propensa al sobreajuste (como todos los modelos lineales). El sistema de predicción de anuncios de Google [1] utilizó una forma avanzada de regresión logística (no No sé si ese sigue siendo el caso.)

Claudi Perlich [2] también señala que LR puede funcionar bien cuando la señal a ruido es baja (es decir, el problema es “difícil” y hay pocos datos), pero RF ganará con más datos sobre el mismo problema.

Dicho todo esto, RF es un algoritmo versátil (también puede hacer regresión), y se puede esperar que supere a LR en muchas tareas de tamaño mediano. Puede manejar características categóricas y de valor real con facilidad: se requiere poco o ningún procesamiento previo. Con una técnica de validación cruzada adecuada, se ajustan fácilmente.

Encuentro que RF y sus primos potenciados siguen siendo una parte relevante del arsenal estándar de ciencia de datos.

También vea excelentes respuestas en ¿Cuáles son las ventajas de la regresión logística sobre los árboles de decisión? ¿Hay casos en los que es mejor usar regresión logística en lugar de árboles de decisión?

Notas al pie

[1] https: //static.googleusercontent…

[2] La respuesta de Claudia Perlich a ¿Cuáles son las ventajas de la regresión logística sobre los árboles de decisión? ¿Hay casos en los que es mejor usar regresión logística en lugar de árboles de decisión?

Aprendizaje automáticoBosques aleatoriosClasificaciónRegresión logística