¿Cuál es la intuición para usar tocones de decisión en el aprendizaje automático?

tl; dr;

Fácil de entrenar, reduce el sobreajuste, funcionará realmente bien en modo conjunto.

Versión más larga

Buena pregunta. Hay dos puntos para la respuesta.

a) ¿Por qué entrenar un modelo simple cuando puede fácilmente (suponiendo que tiene el poder de cálculo) entrenar uno más complejo?

b) Embolsado y todo el punto de promediar cosas.

Asi que,

a) ¿Por qué entrenar un modelo simple?

Ha identificado correctamente el problema con la falta de equipamiento. Entrena un modelo simple, no puede modelar la hipótesis “correcta”, por lo tanto, tiene un alto sesgo.

Sin embargo, no has considerado el otro extremo. ¡Usted entrena un modelo muy complejo que “aprende” los datos de entrenamiento realmente bien! La clave aquí es la palabra “aprender”. El propósito de ML es generalizar, no memorizar. Esto es quizás lo más importante que aprenderás en ML. Siempre, siempre intente crear un modelo que no tenga como objetivo memorizar los datos de entrenamiento.

Ahora, con un modelo muy complejo, obtendrá muy buenas curvas de relaciones públicas en los datos de entrenamiento. Sin embargo, el modelo podría no funcionar bien en un conjunto de datos de prueba no visto. Esto se llama sobreajuste y produce una gran variación.

¿Por qué sobreajustar en primer lugar?

A) Los datos pueden ser ruidosos, y este suele ser el caso en los conjuntos de datos de la vida real, y el modelo aprende sobre el ruido.

B) El modelo aprende sobre un conjunto muy específico de características. Imagine un árbol de decisión de 1000 niveles que fue entrenado para aprender sobre algunos ejemplos muy específicos. Al igual que un 1000 si, de lo contrario, las condiciones de perforación hasta un punto muy fino. ¡El nodo hoja final podría terminar teniendo solo un punto de datos que lo respalde!

¿Serviría esto bien en un conjunto de datos de entrenamiento? ¡Absolutamente! Aprendió a discriminar basándose en un detalle muy fino en el conjunto de datos.

¿Serviría esto bien en un conjunto de datos de prueba? Probablemente tenga en cuenta! Su modelo podría saber qué hacer en escenarios que no ha visto antes.

¿Cómo arreglas esto?
¡Pode el árbol!
Construya el árbol completo y pode o deje de ramificarse después de cierto punto. Los criterios de poda podrían ser “Continuar construyendo el árbol solo si el nodo actual tiene al menos n puntos de datos que lo soportan”.

Esta es la idea detrás de los tocones de decisión.

Image src: Statistics – Bias-varnce trade-off-trade (between overfitting and underfitting)

Imagen fascinante, ¿no?

B) ensacado

Los tocones de decisión a menudo se usan en modelos de conjunto. El bosque aleatorio es un ejemplo de algoritmo de conjunto.

Imagine que tiene una persona que tiene un conocimiento limitado de un tema. Ahora, si le hace a esta persona una pregunta de Sí / No sobre el tema, hay muchas posibilidades de que se equivoque.

Pero imagina que tienes 1000 personas cada una con un conocimiento limitado del tema. Usted les hace la misma pregunta y digamos 800 con Sí y 200 con No. Usted estaría más inclinado a confiar en esta respuesta ya que ha tenido un voto mayoritario. ¿Una persona puede estar equivocada, pero 1,000 personas? Hay una buena posibilidad de que obtenga la respuesta correcta. Por supuesto, filosóficamente hablando, todos podrían estar equivocados. 🙂

De todos modos, eso es lo que haces en el embolsado. ¡Usted entrena a un grupo de estudiantes “débiles” y juntos aprenden a predecir la verdad!

Se vuelve aún más interesante con los algoritmos Boosting (GBT y demás), donde en cada iteración construyes un nuevo alumno que aprende sobre los errores anteriores, en función de una función de pérdida.

More Interesting

¿Cómo determina Quora a quién poner en mi sección "mejorar su alimentación"?

¿Cuáles son algunos algoritmos que un científico de datos debe saber y comprender?

¿Dónde puedo encontrar un código de Python para SVM que use datos de funciones múltiples?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?

Cómo demostrar que una pequeña mejora en un puntaje F es estadísticamente significativa

Cómo discriminar una señal del ruido en la última investigación y desarrollo de AI / ML

Además del aprendizaje profundo, ¿qué otras herramientas de extracción de funciones están funcionando o son prometedoras para el aprendizaje automático?

¿Qué tan fácil es aprender una función booleana con Descenso de gradiente usando un aprendizaje profundo?

Cómo configurar las dimensiones de la capa y la conectividad en Caffe para reproducir una CNN a partir de un trabajo de investigación

¿Cuál es la forma completa de AUC en el estado de AUC de los resultados del examen AKTU?

¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

En general, ¿necesita tener un doctorado para obtener un trabajo de Machine Learning / Data Mining en una startup o en una gran empresa?

¿Cuáles son las suposiciones hechas por los modelos ocultos de Markov?

¿Qué campos están siendo afectados por el progreso de la investigación en el procesamiento del lenguaje natural?