Aprendizaje automático: ¿qué significa ‘Los bosques aleatorios requieren casi ninguna preparación de entrada’?

Random Forest maneja muy bien la mayoría de los tipos de datos que otros algoritmos requieren que manipules antes de poder usarlos. Por ejemplo:
-Datos faltantes: la regresión logística, por ejemplo, no puede tratar con datos faltantes. Tendrá que decidir qué hacer con él. ¿Dejas caer la observación o la imputas con un valor, y qué valor (media, mediana, otra cosa)? En cambio, RF tratará un valor perdido como un valor particular.
-Variables categóricas. En la regresión logística, necesitaría hacer algo como una codificación en caliente para usar variables categóricas en un modelo. RF puede usar variables categóricas tal como están, y ad valores separados como tiene sentido (es decir, Azul y Amarillo irán en una rama, Rojo, Negro y Nulo irán a otra rama).
-Normalización / estandarización de datos: algunos algoritmos, como las redes neuronales, les gusta que los datos se estandaricen para estar en un cierto rango (es decir, -1,1 o 0,1). A los RF no les importa.
-Outliers: los outliers pueden tener un gran impacto en modelos como la regresión logística. RF se encargará de ellos sin problema.