¿Por qué se usa tanto el aumento de gradiente con los árboles de decisión, en lugar de con otros clasificadores?

Yo diría que ha sido popularizado por el paquete gbm R y la implementación de Python, que son comúnmente utilizados por científicos informáticos e ingenieros de software que se aventuran en la ciencia de datos. Tiendo a favorecer a los alumnos de base lineal o modelos spline, ya que son más interpretables.

Creo que la falta de antecedentes estadísticos sólidos está contribuyendo a este problema, ya que muchos cursos de estadística de nivel de posgrado detallan la elección de un alumno base particular dentro de marcos de refuerzo y embolsado con respecto a la teoría y la práctica. Muchos bootcamps y tutoriales en línea solo miran el modelado estadístico y enumeran algunos paquetes para implementar los algoritmos. Por lo tanto, pocas personas que se autodenominan “científicos de datos” realmente conocen las matemáticas detrás de los algoritmos o leen los documentos reales que desarrollan esos algoritmos. Esto es necesario para jugar con las partes del algoritmo, como la elección de los alumnos de base.

Aprendizaje automáticoÁrboles de decisiónClasificación

¿Cuáles son las diferencias entre big data, hadoop y colmena? ¿Son solo jergas con el mismo significado? ¿Puedes resumir en detalle?

¿Cuál es la relación entre física y aprendizaje automático / IA?

¿Qué es AdaBoost?

¿Los científicos de datos y el ingeniero de aprendizaje automático necesitan saber implementar algoritmos ML / DL desde cero o simplemente usar las bibliotecas existentes en producción?

¿Se necesita la misma cantidad de recursos para que una máquina sume / multiplique dos números pequeños y dos grandes?

Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?

Al aumentar, repones los ejemplos de entrenamiento en cada ronda al agregar un nuevo clasificador. Esto significa que es útil tener un clasificador que maneje muestras ponderadas con grandes rangos dinámicos entre ellos, y esto es particularmente fácil con los árboles de decisión. Con otros clasificadores puede significar sobremuestreo, por ejemplo, si se envía una muestra de peso 0.01, se podría entrenar con muestras de peso 1.0 100x de alguna manera (dependiendo de la implementación del esquema de ponderación). En un árbol de decisión, esto generalmente solo almacena el peso de la etiqueta * en el nodo hoja.

Héctor Yee

el árbol de decisión es simple pero mejor que adivinar al azar, no hay demasiados ajustes de parámetros para cada árbol débil, ahorra mucho trabajo
el árbol de decisión no es lineal

Héctor Yee

More Interesting

¿Cuál sería un enfoque razonable para optimizar los ingresos publicitarios del sitio web utilizando datos de GA y aprendizaje automático?

¿Cuál es la diferencia entre factorización y parametrización?

¿Por qué se usa Python para el aprendizaje profundo si es tan lento?

¿Qué clases de modelos se pueden usar para predecir distribuciones de series de tiempo?

¿Cómo puede Google diseñar un procesador más adecuado para el entrenamiento de redes neuronales profundas que la GPU?

¿A qué se refiere el término "regresión" en "análisis de regresión"?

¿Cuál es la mejor herramienta de aprendizaje automático para Mac OS?

¿Cuáles son las mejores medidas al validar de forma cruzada un modelo para determinar qué tan bueno es el modelo y cómo funcionará en situaciones reales?

He completado la clase Coursera de Andrew Ng sobre aprendizaje automático. ¿Qué debería hacer después? ¿Qué puedo hacer a continuación?

¿Keras admitirá PyTorch como backend en el futuro?