Random Forest maneja muy bien la mayoría de los tipos de datos que otros algoritmos requieren que manipules antes de poder usarlos. Por ejemplo:
-Datos faltantes: la regresión logística, por ejemplo, no puede tratar con datos faltantes. Tendrá que decidir qué hacer con él. ¿Dejas caer la observación o la imputas con un valor, y qué valor (media, mediana, otra cosa)? En cambio, RF tratará un valor perdido como un valor particular.
-Variables categóricas. En la regresión logística, necesitaría hacer algo como una codificación en caliente para usar variables categóricas en un modelo. RF puede usar variables categóricas tal como están, y ad valores separados como tiene sentido (es decir, Azul y Amarillo irán en una rama, Rojo, Negro y Nulo irán a otra rama).
-Normalización / estandarización de datos: algunos algoritmos, como las redes neuronales, les gusta que los datos se estandaricen para estar en un cierto rango (es decir, -1,1 o 0,1). A los RF no les importa.
-Outliers: los outliers pueden tener un gran impacto en modelos como la regresión logística. RF se encargará de ellos sin problema.
Aprendizaje automático: ¿qué significa ‘Los bosques aleatorios requieren casi ninguna preparación de entrada’?
Related Content
¿Cuál es mejor, el aprendizaje automático de Stanford en Coursera o un nanogrado Udacity?
¿Cuáles son algunas aplicaciones interesantes de aprendizaje profundo en FinTech?
¿Cómo podemos hacer una buena predicción usando el aprendizaje profundo MXNet R?
More Interesting
¿Es el análisis de sentimientos todo sobre lingüística?
¿Cuáles son los beneficios de usar el Descenso de gradiente de mini lotes?
Cómo medir el rendimiento de aprendizaje en Q-Learning
¿Puede el aprendizaje profundo manejar datos desequilibrados?
¿Por qué los diseñadores o los PM deben aprender sobre el aprendizaje automático?
¿Cómo es usar las API de servicios cognitivos de Microsoft?
¿Qué nos dicen las cargas de variables del análisis de componentes principales?
¿Qué opinas del TensorFlow Eager en comparación con Pytorch?