¿Por qué necesitamos RandomForestClassifier cuando DecisionTreeClassifier selecciona la mejor característica en cada división?

Los árboles de decisión no seleccionan la mejor característica, seleccionan la mejor característica de la muestra en la que se entrenaron. Después de un montón de divisiones, el número de puntos de datos se reduce rápidamente (exponencialmente) y estamos tomando decisiones sobre una pequeña muestra sobreajustando el conjunto de entrenamiento y obteniendo una generalización inferior. Si podamos mucho los árboles, es probable que generalicemos bien, pero al principio no será muy preciso.

Los bosques aleatorios construyen muchos árboles, cada uno de ellos posiblemente demasiado ajustado, pero la aleatoriedad en filas y columnas crea diversidad, por lo que los errores solo se correlacionan libremente y cuando promediamos las predicciones obtenemos predicciones más precisas.

También vale la pena señalar que incluso en el conjunto de entrenamiento, un árbol podado no será óptimo debido a la codicia. Construir un árbol óptimo es difícil.

More Interesting

Cómo desarrollar una aplicación que reproduzca música de acuerdo a tu estado de ánimo

¿Por qué la mayoría de las competencias recientes se centran en el aprendizaje profundo / redes neuronales? ¿No crea esto un desequilibrio en los tipos de problemas que se ofrecen?

¿Cuáles son algunos documentos similares al trabajo realizado para el Proyecto Tango de Google?

¿Cómo debo elegir entre convertirme en un desarrollador de JavaScript de pila completa o un ingeniero de aprendizaje automático?

¿Cuál es el proceso de reconocimiento de voz (en resumen)?

Cuál debería ser mi próximo paso, después de cubrir las estadísticas básicas de las estadísticas principales, un curso básico de análisis de datos (preparación de datos, exploración, clasificación, minería de reglas de asociación, agrupación, regresión) y un proyecto en un conjunto de datos SSLC (puede encontrarlo en mi único blog en Quora) usando R?

¿Cuáles son algunos temas de proyectos realmente interesantes para la investigación en informática como el reconocimiento de gestos a través de Kinect o el sexto sentido de Pranav Mistry?

¿Dónde puedo encontrar excelentes bibliotecas de aprendizaje automático para Java?

¿Cómo evalúa el rendimiento de un algoritmo de aprendizaje no supervisado?

¿Cuáles son las falacias comunes de minería de datos?

¿Cómo entrenamos redes neuronales en imágenes en lugar de datos numéricos?

¿Cuál es el ejemplo de código más simple para redes neuronales recurrentes (RNN) en TensorFlow?

Mi algoritmo de ML, escrito en Python, está casi completo. Quiero que sea un sitio web. ¿Cuál es la mejor manera de conectar mi script Python a Meteor?

¿Cuál es la mejor tarjeta gráfica para tareas de aprendizaje automático / Big Data?

¿Cuál es la ventaja del modelo espacial autorregresivo?