¿Cuándo debe usarse el bosque aleatorio sobre la regresión logística para la clasificación y viceversa?

Cuando funciona mejor El consejo habitual es aplicar ambos y ver qué pasa.

Pero debes definir “mejor”.

  • ¿Más predictivo?
  • ¿Más rápido?
  • ¿Más escalable?
  • ¿Más interpretable?

Los modelos de aprendizaje automático se evalúan empíricamente. La teoría nos dice que no hay un modelo único que funcione mejor en todos los conjuntos de datos posibles. Eso sugiere que deberíamos esperar usar diferentes modelos para diferentes aplicaciones.

Algunas veces usará la regresión logística incluso cuando sea menos predictiva porque es más interpretable o más rápida. Por ejemplo, si el propósito de un modelo es ayudar a otros a tomar una decisión o si el modelo está bajo escrutinio regulatorio (piense en finanzas o medicina), la regresión logística es más fácil de explicar.

Para los modelos con millones de características dispersas, la regresión logística será mucho más rápida de entrenar y ejecutar, y es menos propensa al sobreajuste (como todos los modelos lineales). El sistema de predicción de anuncios de Google [1] utilizó una forma avanzada de regresión logística (no No sé si ese sigue siendo el caso.)

Claudi Perlich [2] también señala que LR puede funcionar bien cuando la señal a ruido es baja (es decir, el problema es “difícil” y hay pocos datos), pero RF ganará con más datos sobre el mismo problema.

Dicho todo esto, RF es un algoritmo versátil (también puede hacer regresión), y se puede esperar que supere a LR en muchas tareas de tamaño mediano. Puede manejar características categóricas y de valor real con facilidad: se requiere poco o ningún procesamiento previo. Con una técnica de validación cruzada adecuada, se ajustan fácilmente.

Encuentro que RF y sus primos potenciados siguen siendo una parte relevante del arsenal estándar de ciencia de datos.

También vea excelentes respuestas en ¿Cuáles son las ventajas de la regresión logística sobre los árboles de decisión? ¿Hay casos en los que es mejor usar regresión logística en lugar de árboles de decisión?

Notas al pie

[1] https: //static.googleusercontent…

[2] La respuesta de Claudia Perlich a ¿Cuáles son las ventajas de la regresión logística sobre los árboles de decisión? ¿Hay casos en los que es mejor usar regresión logística en lugar de árboles de decisión?

Si sus datos son linealmente separables, vaya con regresión logística. Sin embargo, en el mundo real, los datos rara vez son linealmente separables. La mayoría de las veces los datos serían un desastre desordenado.

En tales escenarios, los árboles de decisión encajarían mejor, ya que DT es esencialmente un clasificador no lineal. Como DT es propenso a un ajuste excesivo, los bosques aleatorios se utilizan en la práctica para generalizar mejor el ajuste. RF proporciona un buen equilibrio entre precisión y sobreajuste.

Como tal, en resumen, debe usar RF cuando sus datos demuestren relaciones no lineales. Para relaciones lineales, SVM o clasificadores logísticos serían suficientes.

  • Si su problema / datos son linealmente separables, primero intente la regresión logística. Si no lo sabe, comience con la regresión logística porque esa será su línea de base, seguida de un clasificador no lineal, como un bosque aleatorio. No olvide ajustar los parámetros de regresión logística / bosque aleatorio para maximizar su rendimiento en sus datos.
  • Si sus datos son categóricos, entonces el bosque aleatorio debería ser su primera opción; sin embargo, la regresión logística puede tratarse con datos categóricos [1].
  • Si desea resultados fáciles de entender, la regresión logística es una mejor opción porque conduce a una interpretación simple de las variables explicativas.
  • Si la velocidad es su criterio, entonces la regresión logística debería ser su elección [2].
  • Si sus datos no están equilibrados, entonces el bosque aleatorio puede ser una mejor opción [3].
  • Si el número de objetos de datos es menor que el número de características, no se debe utilizar la regresión logística [4].
  • Por último, como se señala en este documento, ya sea en el bosque aleatorio o en la regresión logística, “los modelos parecen funcionar de manera similar en todos los conjuntos de datos con un rendimiento más influenciado por la elección del conjunto de datos en lugar de la selección del modelo ” [5].

Notas al pie

[1] Cómo lidiar con variables categóricas no binarias en regresión logística (SPSS)

[2] https://arxiv.org/ftp/arxiv/pape

[3] http: //davidsiroky.faculty.asu.e

[4] https://www.ncbi.nlm.nih.gov/pmc

[5] http://www.diva-portal.org/smash

La regresión logística debe usarse con más frecuencia cuando tiene clases separables limpia y linealmente. Eso es lo que busca la regresión logística en los datos: una separación lineal de clases a lo largo de las variables dadas.

Obviamente, esto se vuelve más difícil cuando agrega más variables a la mezcla, lo que significa que la regresión logística funciona peor en condiciones de alta dimensionalidad. Eso significa que normalmente pasarías a un bosque aleatorio si tienes muchas variables.

Pero los dos tienen un rendimiento comparable, a veces, y realmente depende del conjunto de datos. Como ejercicio, debe probar ambos (ya que, a decir verdad, el código para ambos es realmente básico) y evaluar el resultado para descubrir por qué uno es mejor que el otro.

Siempre que no necesite un modelo interpretable o tenga más predictores que observaciones (aunque sugeriría una regresión potenciada con aprendices base lineales en lugar de una regresión logística o una técnica basada en topología / geometría). Vea mi artículo reciente sobre esto para obtener más detalles sobre el problema: Farrelly, CM (2017). Topología y Geometría en Machine Learning para Regresión Logística.

Cuando sus variables independientes (características) son categóricas, el bosque aleatorio tiende a funcionar mejor que la regresión logística. Con variables continuas, la regresión logística suele ser mejor. Dicho esto, todo depende de los detalles del problema que se está resolviendo.

Si bien muchas selecciones de modelos dependen del rendimiento y otros criterios comerciales. Una regla general es usar modelos basados ​​en árboles cuando tiene muchas variables categóricas en sus IDV y si tiene muchas variables continuas en sus IDV puede optar por modelos lineales (regresión logística).

More Interesting

¿Puedo crear un programa de aprendizaje automático en otro idioma que no sea un flujo de tensor o scikit-learn?

¿Cuál es la diferencia entre la regresión de mínimos cuadrados ordinarios y la regresión lineal con el método de mínimos cuadrados?

¿Qué son las redes amplias?

Soy candidato a doctorado en una universidad en Irán, tengo experiencias en PNL persa, Spark, Hadoop y aprendizaje profundo. ¿Tengo alguna posibilidad de ingresar a Google?

¿Necesito una GPU para aprender el aprendizaje profundo?

¿Cuál es la ley cero del algoritmo de aprendizaje automático (MLA)?

¿Tiene sentido la regularización (L2, abandono, etc.) alguna vez para datos muy ruidosos, pero también abundantes, como series de tiempo financieras?

¿Cuál es la diferencia entre soft k-means y el algoritmo EM?

¿Cuáles son algunos algoritmos para resolver el problema de los bandidos multi-armados?

¿Es el número de nodos en una capa oculta más que la capa de entrada? ¿Es esto un problema? ¿Qué se puede aprender en tales redes neuronales?

¿Cuál es una explicación intuitiva de las redes residuales profundas?

¿Por qué podría mejorarse el arrepentimiento del bandido lineal mediante una proyección aleatoria?

En PWR, ¿por qué las barras de control están dispuestas en grupos?

¿Cómo pudo la policía de Arizona llegar a una conclusión tan rápida que el auto Uber que se volcó no fue el culpable?

¿Necesito normalizar mis vectores de características antes de usar Deep Learning?