¿Qué tamaño debería tener mi bosque aleatorio aproximadamente si tengo 17 variables y medio millón de registros?

El aprendizaje automático es más un arte que una ciencia …

No hay una buena respuesta a su pregunta porque “depende”.

Aquí hay un ejemplo extremo: supongamos que tengo un registro y una característica. Digamos que dupliqué el registro un millón de veces y para la función, lo multipliqué por 2,3, …, 100 para obtener 100 funciones diferentes. Ahora tengo un conjunto de entrenamiento de 1 millón de registros y 100 funciones, pero no hay contenido de “información” para ningún algoritmo de Machine Learning (ML) del que pueda aprender nada.

Otro escenario, sería, ¿qué pasaría si la mitad de las etiquetas estuvieran mal? Sería prácticamente imposible para cualquier algoritmo de ML llegar a un buen modelo.

Por otro lado, supongamos que una variable predice perfectamente todos sus datos. Entonces, solo necesitas un árbol de profundidad 1.

Si la naturaleza de sus datos es que son muchas pequeñas islas de diferentes etiquetas, necesitará muchos árboles con mucha profundidad.

Los árboles pueden hacer mal si las características son “dispersas”. Suponga que la función casi siempre está “desactivada” y no le proporciona ninguna información, pero en los raros casos en que está “activada”, es un indicador fuerte para una clase. Los árboles funcionan por “ganancia de información”, por lo que tenderá a ignorar tales características porque (sorprendentemente) no proporciona mucha ganancia de información.

En pocas palabras: ML no es mágico (aunque lo parezca). Qué tan bien depende de la cantidad y calidad tanto de su Conjunto de entrenamiento como de sus Características . Además, la calidad del modelo puede variar ampliamente según el ML que aplique a cada problema. El “Teorema de no almuerzo gratis” significa que no puede elegir un solo algoritmo para atacar el problema.

Sin almuerzo gratis en búsqueda y optimización – Wikipedia