¿El apilamiento de modelos en el aprendizaje automático hace una gran diferencia en los resultados?

Realmente depende del conjunto de datos y los modelos base. Por ejemplo, supongamos que está modelando un gran conjunto de datos con un conjunto de modelos básicos simples (por ejemplo, KNN, árbol de decisión único, etc.). Los modelos base individuales pueden hacer un trabajo relativamente pobre al ajustar los datos. Por lo tanto, cuando los agrupa, el potencial de mejora sobre el mejor modelo base individual será relativamente grande.

Ahora repitamos el ejercicio, pero usemos solo modelos básicos complejos (por ejemplo, red neuronal, árbol impulsado por gradiente, etc.) para entrenar el mismo conjunto de datos. En este caso, los modelos base individuales harán un trabajo relativamente bueno al ajustar los datos. Entonces, cuando apile estos modelos base, el potencial de mejora sobre el mejor modelo base individual será relativamente pequeño.

Hasta ahora solo he usado el ejemplo de un gran conjunto de datos. Pero, ¿qué pasa si se usa un conjunto de datos pequeño y simple? En ese caso, el apilamiento probablemente no ayudará mucho, independientemente de los modelos base. Probablemente sea mejor usar un solo modelo, y un solo modelo complejo puede no ser mucho mejor que un solo modelo simple.

En mi experiencia, los resultados del apilamiento son mixtos. A veces ayuda, y otras veces no. En los casos en que ayuda, la mejora suele ser modesta. Tenga en cuenta que tiendo a utilizar modelos básicos complejos, como bosques aleatorios y árboles impulsados ​​por gradientes, que son el resultado del ensamblaje. Además, gran parte de mi apilamiento se limita a la mezcla, que es solo un promedio aritmético o geométrico simple de algunos modelos base.

En cuanto al uso en el mundo real, a menudo no es práctico apilar porque puede ser una tarea que consume mucho tiempo, especialmente en grandes conjuntos de datos. Incluso si pudiera producir un modelo mejor apilado, implementar un modelo tan complicado en la producción puede no ser factible. Y no olvide que los modelos más complejos tienden a degradarse más rápido con el tiempo. Entonces, supongo que los equipos de ciencia de datos del mundo real con mano de obra limitada y potencia informática solo realizarán una cantidad modesta de apilamiento en sus modelos, si es que lo hacen.

A menudo apilo modelos. Lo hago cuando mi modelo mental incluye un proceso de varios pasos. Por ejemplo, estaba tratando de estimar la probabilidad de estructuras gramaticales en el lenguaje. La distribución de probabilidad es un poco loca … aproximadamente el 80% de los posibles eventos tienen una probabilidad verdadera de cero, alrededor del 10-15% tienen una probabilidad entre el 95% y el 100%, y un pequeño número de eventos tiene una probabilidad entre el 1% y el 99 %

Intentar modelar esto como un solo modelo es tonto. Cualquier modelo en el que el 80% de los datos de entrenamiento sea cero no hará un buen trabajo al discriminar con precisión entre el 95% y el 100%.

Del mismo modo, estaba haciendo un modelo para predecir cuánto dinero donarían las personas a una organización benéfica. Hay dos pasos: donará esta persona, y cuánto donará esta persona dado que esta persona está donando.

Nuevamente, tratar de modelar esto sin apilar es tonto. La distribución subyacente real es, naturalmente, la multiplicación de estas dos distribuciones.

Si puede entrenar los dos pasos por separado, entonces es mucho mejor hacerlo que tratar de resolver todo el problema de una vez. También le permite usar un tipo diferente de modelo para cada paso lógico.

More Interesting

¿Cómo se compara la industria del aprendizaje automático con las opciones de carrera dentro del desarrollo web?

El problema de los bandidos armados múltiples discutido en el libro de Sutton y Barto, usa 2000 ensayos y 1000 jugadas. Cuál es la diferencia entre esto?

¿Pueden Kmeans y el algoritmo DBSCAN dar el mismo resultado para un conjunto de datos en particular?

¿Por qué los entrenamientos CNN desequilibrados afectan tanto la clasificación?

¿Es Kafka la mejor solución para crear una aplicación de visión por computadora?

Cómo hacer que un estudiante de pre-varsity entienda la diferencia entre estadística paramétrica y no paramétrica

¿Cómo debo aprender el aprendizaje automático? ¿Puede proporcionar una hoja de ruta específica desde un principiante hasta un experto?

¿Qué suele hacer que una red neuronal deje de mejorar temprano?

¿Cuál es una buena fuente para aprender la optimización convexa?

¿Qué es $ delta en la validación cruzada?

¿Por qué el aprendizaje en estructuras de datos complejas (gráficos, árboles, etc.) está tan poco representado en el aprendizaje automático?

¿Puede un ingeniero eléctrico seguir una carrera en aprendizaje automático en el futuro?

¿Qué método de aprendizaje profundo usar para clasificar archivos de texto?

¿Cómo se debe elegir el parámetro [math] l [/ math] en la regresión de mínimos cuadrados parciales?

¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?