Hasta donde sé, aborda estos problemas de la siguiente manera.
No normalidad
En general, eso no es un problema, no utiliza distancias métricas entre los puntos de datos, sino que aplica divisiones a lo largo de un árbol y la escala de características es completamente irrelevante para esto.
Heterocedasticidad
Podría estar equivocado y existen métodos para aliviar este problema, pero en general es un problema fundamental de no previsibilidad o pérdida de certeza de algún rango de características en adelante. Entonces no, no se ocupará de esto, el problema son los datos y el dominio en sí.
- Si el aprendizaje automático está de moda en este momento, ¿qué crees que seguirá?
- ¿Se puede desarrollar un bot de chat usando Tensorflow? En caso afirmativo, ¿cómo empiezo a codificar en el mismo?
- ¿Qué especificaciones de computadora se recomiendan para entrenar redes neuronales?
- ¿Cuáles son algunos de los grandes usos de Google TensorFlow?
- ¿Existen algoritmos que hacen lo contrario de la detección de anomalías, por ejemplo, señalan ocurrencias regulares en datos ruidosos?
Multicolinealidad
No debería causar grandes problemas para la predicción. Tal vez agrega algo de confusión a la interpretabilidad de la relevancia de la característica al igual que con otros algoritmos de regresión (paramétricos).
Valores atípicos
Creo que los valores atípicos estarían “sobreajustados” en el árbol, es decir, terminarían en una rama separada de los árboles de decisión. Sin embargo, este sobreajuste se regularizará teniendo muchos árboles en un bosque aleatorio (que en general es el propósito de un bosque en lugar de un solo árbol de decisión).
Valores faltantes
En general, los métodos para resolver este problema se denominan métodos de imputación. Y generalmente no son parte de un modelo predictivo en sí mismo. Por lo tanto, el usuario debe imputar los valores antes de usar el bosque aleatorio.
Variables categóricas
Prefiero decir que los bosques aleatorios también funcionan para la regresión, pero la clasificación es su dominio natural. Básicamente, cada árbol de decisión genera una categoría y vota por esto. Entonces, el resultado final del bosque aleatorio es generalmente un voto mayoritario directo.