¿Qué es diferenciar los bosques aleatorios de otros métodos de conjunto en Data Science y por qué?

Buena pregunta. Teóricamente, tiene más sentido emplear muchos algoritmos y promediarlos juntos. Sin embargo, hay algunas razones prácticas por las que los bosques aleatorios se han vuelto tan populares en los últimos años:

El preprocesamiento es trivial. A los árboles de decisión no les importa si sus datos son discretos, continuos o incluso contienen valores de caracteres. No requieren que escale todas las variables para que tengan una media de 0 y una desviación estándar de 1. Literalmente, puede escribir 10 líneas de código de Python para obtener un clasificador que sea 97% preciso en MNIST utilizando bosques aleatorios.
La regresión y la clasificación son fáciles. Muchas veces no está del todo claro cuándo desea utilizar la regresión o la clasificación, particularmente con un problema de 0/1 como la detección de enfermedades. Afortunadamente, con los bosques aleatorios no tiene que elegir: el mismo conjunto de datos se puede alimentar a un Regresor y un Clasificador.
Los bosques son fácilmente configurables. ¿Demasiado sobreajuste? Solo usa algunos árboles extremadamente aleatorios. ¿Quieres saber importancias variables? Sorprendentemente fácil.
Los bosques son extremadamente paralelos. Bootstrapping en general es fácil de paralelizar, y hay muchos módulos donde literalmente puede establecer el número de núcleos que desea que su bosque use como parámetro. En contraste, puede ser significativamente más difícil paralelizar un SVM o un método basado en Boosting.
Los bosques funcionan muy bien. En la práctica, descubrí que un bosque aleatorio lanzado en 5 minutos a menudo supera a otros algoritmos minuciosamente ajustados. Esto se debe a que el arranque funciona mejor con clasificadores muy inestables que se ajustan fácilmente. Los árboles de decisión ajustan esto a una T, mientras que muchos otros métodos (regresión lineal, k-NN, SVM) no se benefician casi tanto.

En resumen, la combinación de facilidad de uso y alto rendimiento convierte a Random Forests en la solución definitiva 80/20: obtendrá modelos de alta calidad con muy poco trabajo.

Aprendizaje automáticoÁrboles de decisiónBosques aleatoriosClasificación

¿Cuál es la forma mejor y más simple de agrupar productos por sus nombres?

¿Cuál es el futuro del aprendizaje de refuerzo profundo? ¿Es una buena idea comenzar un doctorado ahora trabajando en ataques adversos en sistemas RL?

¿Qué áreas específicas de las matemáticas son útiles en neurociencia?

¿De qué maneras alguien puede obtener ingresos del aprendizaje automático (trabajo por cuenta propia)?

¿Qué tan bien funciona el sistema ai-one?

¿Por qué es beneficioso centrar y normalizar los datos antes de ejecutar el Análisis de componentes principales en él?

Como lo básico se ha cubierto en otras respuestas, permítanme agregar una analogía diferente.

Para mí, los bosques de decisión aleatoria son del tipo de clasificación / regresión de lo que es la clasificación por fusión. En el orden de fusión, casi toda la acción está en la fusión. Aunque divide la entrada, el problema de clasificación en el caso base es trivial.

Se podría decir que los bosques de decisión aleatoria están todos en conjunto sobre clasificación / regresión trivial. Y, curiosamente, eso es bastante fuerte: muchos estudiantes débiles se suman a un estudiante fuerte. La simplicidad le permite ampliar el conjunto extremadamente.

Dicho esto, no tiene por qué ser así. No hay una buena razón por la que tenga que usar estudiantes tontos en las hojas. Por ejemplo, para la regresión, no es necesario usar una estimación puntual en las hojas que sea el valor medio del objetivo; podrías aprender un pequeño modelo de regresión allí. O: los límites de decisión no tienen que estar alineados con el eje.

Una vez que bombea un poco de inteligencia a la parte trivial, se vuelve aún más fuerte. Esta es la razón por la cual RDF funciona de manera antinatural.

Satvik Beri

Mi respuesta tiene que ver con “A primera vista, esto aparece como una aplicación de conjunto común y corriente, que utiliza solo técnicas estándar”. y “la falta de diversidad algorítmica”.

La razón por la cual en RF se usa el mismo modelo de árbol y no modelos diversos diferentes es estadística. Uno puede ver los bosques aleatorios como una forma de cambiar el sesgo por la variación. Lo que quiero decir es que, según el dilema sesgo-varianza, se puede cambiar el sesgo por la varianza. Se sabe que los árboles de decisión tienen un sesgo pequeño pero una gran variación. Lo que hace RF es reducir la varianza permitiendo cierto sesgo promediando. Puede ver cómo funciona esto entendiendo cosas como la Ley de grandes números. Para que el promedio funcione como se esperaba, los modelos deben tener la misma distribución y ser independientes. La independencia se crea mediante la aleatorización de variables de entrada. La misma distribución es inducida por el hecho de que es el mismo modelo.

Por supuesto, es posible “avanzar al siguiente paso que podría ser la diversidad algorítmica” o la “diversidad de modelos”, sin embargo, creo que estos modelos tienen al menos que permanecer en la misma familia. Pero esta es solo mi idea.

Tudor Achim

Random Forest es un método que básicamente ejecuta árboles de decisión en una colección de pequeñas muestras aleatorias. Las muestras aleatorias pequeñas, aunque menos representativas de la población en su conjunto, pueden mostrar los casos extremos del conjunto de datos para que se vean mejor que los conjuntos de datos grandes. Cuando se combinan varias de las pequeñas muestras aleatorias, también pueden aislar mejor la señal del ruido. Es por eso que creo que los métodos de bosques aleatorios funcionan mejor.

El teorema del límite central y las muestras grandes son buenas para encontrar simetrías en el conjunto de datos, pero, si está interesado en encontrar asimetrías, realmente necesita aprovechar conjuntos de datos más pequeños.

Digamos que tienes una urna de 100 monedas. Ahora, la probabilidad de obtener todas las caras es significativamente menor cuando sacas de la urna de 100 monedas que si sacas de dos urnas de 50 monedas cada una. es decir, los resultados extremos son más probables con números más pequeños.

El libro, Pensamiento, rápido y lento: Daniel Kahneman: explica bastante bien la ley de los números pequeños. En el libro hay un ejemplo en el que la fundación Gates descubrió que las escuelas pequeñas funcionan mejor que las grandes. Pero, las escuelas pequeñas también funcionan mucho peor que las grandes. Entonces, si su interés es encontrar los factores que “mueven la aguja” en el margen, debe escuchar pequeños conjuntos de datos.

Aquí hay otro enlace que explica el mismo problema: CREER EN LA LEY DE LOS NÚMEROS PEQUEÑOS

Gajen Jung Katuwal

El bosque aleatorio intenta relacionar a los miembros de su conjunto, es decir, relaciona los árboles. Al crear miembros, es decir, el árbol de decisión, se selecciona aleatoriamente un subconjunto de predictores p como candidatos divididos del conjunto de q predictores disponibles. El promedio de estos árboles de decisión no correlacionados hace que el sistema sea menos variable y más confiable.

Aurelian Tutuianu

More Interesting

¿Cuál es el lenguaje más utilizado para el aprendizaje automático en la industria?

¿Por qué los modelos basados en árboles son robustos para los valores atípicos?

Después de dominar el aprendizaje profundo, ¿es posible conseguir un trabajo en aprendizaje automático?

¿Qué tipo de problemas han funcionado bien con Bayesian Networks?

¿Es un 'predictor de la siguiente palabra' que hice el aprendizaje automático o el procesamiento del lenguaje natural?

¿Es posible que un ingeniero de procesamiento de señales se involucre en el campo del aprendizaje automático?

¿Cuántas imágenes de entrenamiento deberían usarse para una buena tarea de reconocimiento de género en OpenCV? ¿Hay algún conjunto de datos disponible para esta tarea?

¿Cómo usa Facebook el aprendizaje automático?

¿Es posible conseguir un trabajo en Machine Learning sin experiencia laboral?

¿Cuál es el papel de la función de activación en una red neuronal? ¿Cómo funciona esto en un sistema de red neuronal humana?