Aprendizaje automático: ¿qué significa ‘Los bosques aleatorios requieren casi ninguna preparación de entrada’?

Random Forest maneja muy bien la mayoría de los tipos de datos que otros algoritmos requieren que manipules antes de poder usarlos. Por ejemplo:
-Datos faltantes: la regresión logística, por ejemplo, no puede tratar con datos faltantes. Tendrá que decidir qué hacer con él. ¿Dejas caer la observación o la imputas con un valor, y qué valor (media, mediana, otra cosa)? En cambio, RF tratará un valor perdido como un valor particular.
-Variables categóricas. En la regresión logística, necesitaría hacer algo como una codificación en caliente para usar variables categóricas en un modelo. RF puede usar variables categóricas tal como están, y ad valores separados como tiene sentido (es decir, Azul y Amarillo irán en una rama, Rojo, Negro y Nulo irán a otra rama).
-Normalización / estandarización de datos: algunos algoritmos, como las redes neuronales, les gusta que los datos se estandaricen para estar en un cierto rango (es decir, -1,1 o 0,1). A los RF no les importa.
-Outliers: los outliers pueden tener un gran impacto en modelos como la regresión logística. RF se encargará de ellos sin problema.

Machine Learning

Related Content

¿Cuál es mejor, el aprendizaje automático de Stanford en Coursera o un nanogrado Udacity?

¿Cuáles son algunas aplicaciones interesantes de aprendizaje profundo en FinTech?

¿Cómo podemos hacer una buena predicción usando el aprendizaje profundo MXNet R?

¿Qué significa la siguiente imagen de un gráfico en Theano?

¿Cómo hace un auto Tesla el aprendizaje automático?

Cómo desduplicar elementos de feed no idénticos mediante el aprendizaje automático

En los modelos gráficos, ¿cuál es la diferencia entre un gráfico de clúster y un gráfico de factores?

More Interesting

¿Es el análisis de sentimientos todo sobre lingüística?

¿Cuáles son los beneficios de usar el Descenso de gradiente de mini lotes?

¿Cuál es el mejor software para Machine Learning y Deep Learning, de acuerdo con el tamaño del conjunto de datos y el sistema?

Cómo medir el rendimiento de aprendizaje en Q-Learning

¿Puede el aprendizaje profundo manejar datos desequilibrados?

¿Cuáles son algunas buenas ideas de proyectos en el área de análisis / predicción del mercado de valores utilizando Bayes ingenuo?

¿Por qué los diseñadores o los PM deben aprender sobre el aprendizaje automático?

¿Cuál es un resumen del trabajo de Jordan Boyd-Graber sobre la Respuesta incremental interactiva a preguntas que le valió el Premio a la Demostración Excepcional de NIPS?

¿Qué es el muestreo de control de casos y por qué necesitamos corregir el término constante en regresión logística (aprendizaje automático)?

¿Cómo es usar las API de servicios cognitivos de Microsoft?

¿Qué nos dicen las cargas de variables del análisis de componentes principales?

¿Cuáles son algunos proyectos paralelos de Machine Learning que puedo implementar en mi tiempo libre?

¿Qué opinas del TensorFlow Eager en comparación con Pytorch?

¿Cómo afectan la ciencia de datos, los grandes datos y el aprendizaje automático al campo de la economía?

Cómo manejar una imagen de diferentes tamaños en una red convolucional de MatConvNet con un contenedor DagNN

Web Analytics