Puede pensar en Machine Learning (ML) como una metodología de conjetura estadística, de la cual existen muchos algoritmos.
Tanto los modelos de aumento de gradiente (GBM) como los bosques aleatorios (RF) son tipos de modelos de árbol .
Un modelo de árbol es, en términos simples, como el juego de adivinanzas Twenty Questions. El adivinador podría tener preguntas como “¿Es más grande que una caja de pan?”, “¿Está vivo?”, Etc. El tamaño o la vida de la cosa que se adivina es una “característica”. Al descifrar lo que es probable o improbable basado en estas preguntas, terminas con una respuesta probable (pero posiblemente incorrecta). Parte de la estrategia en 20 preguntas es ordenar las preguntas correctamente: las primeras preguntas deben ser amplias, para eliminar una gran cantidad de posibilidades. Las últimas preguntas deberían ser más específicas para centrarse en la “mejor” respuesta posible.
- ¿Cómo se utilizan los grandes datos en la industria del petróleo y el gas? La industria del petróleo y el gas ya contaba con sistemas de adquisición de datos e informes implementados para la producción y el mantenimiento. ¿Qué nivel adicional de gestión de datos proporciona Big Data?
- ¿EsProc puede reemplazar SQL?
- ¿Qué MOOC, proyecto en línea o curso relacionado con big data \ Hadoop debería agregar a mi currículum como una habilidad adicional, como analista de datos (en ciencia de datos)?
- Necesito una persona de Python Advanced para evaluar a un candidato de Data Science. ¿Puede usted ayudar?
- ¿Por qué debería molestarme con Python si puedo usar software para el análisis de datos (Excel, Tableau)?
Ahora, qué sucede cuando un ML de árbol se entrena en el conjunto de datos, el algoritmo trata de llegar a un conjunto de “preguntas” que son “óptimas”. Lamentablemente, no hay una solución perfecta. Entonces, hay diferentes estrategias para tratar de construir el Tree ML. GBM y RF son solo dos de los muchos modelos de Tree.
La idea detrás de RF es construir muchos árboles pequeños que usen un subconjunto aleatorio de las características y luego combinarlos en un “bosque” de árboles. Cada árbol en sí mismo es un predictor débil, pero cuando se combinan los muchos predictores débiles, a menudo (¡pero no siempre!) Puede obtener un modelo más fuerte. Ver: bosque aleatorio – Wikipedia
La idea detrás de GBM es más sofisticada. Aproximadamente, la idea es volver a combinar predictores débiles. El truco es encontrar áreas de clasificación errónea y luego “aumentar” la importancia de esos puntos de datos pronosticados incorrectamente. Y repetir. El resultado es un solo árbol a diferencia de RF. Ver: aumento de gradiente – Wikipedia
Ambas metodologías intentan evitar el “ajuste excesivo”. Es decir, es posible construir un modelo de árbol que modela servilmente los datos de entrenamiento, las verrugas y todo. Cuando ese modelo demasiado ajustado encuentra un elemento de datos que no se corresponde exactamente con la experiencia previa con el conjunto de entrenamiento, la respuesta podría ser incorrecta. Ver: sobreajuste – Wikipedia
Ahora, seguramente se preguntará qué modelo es “mejor”. Desafortunadamente, el “Teorema de no almuerzo gratis” dice que no existe un mejor algoritmo que funcione mejor en todos los casos. Además, con el modelo RF, es posible que tengas (des) suerte y termines con un modelo que sea mejor o peor.
Ver: No hay almuerzo gratis en búsqueda y optimización – Wikipedia
Algunas ventajas de los modelos Tree son
- Por lo general, son rápidos para entrenar (aunque mi experiencia es que la RF es lenta).
- puede obtener fácilmente una lista de características importantes. Las características más altas en el árbol son más importantes
- desde el diseño del árbol (s), puede descubrir la lógica detrás del modelo (mientras que las redes neuronales tienden a ser algo misteriosas)
Un problema con los modelos Tree es que son “inestables”. Es decir, como un pequeño cambio en el conjunto de características o conjunto de entrenamiento puede hacer que el modelo cambie radicalmente.