Respuesta corta:
No habrá diferencia al seleccionar atributos con el mismo IG. rpart selecciona la primera y mejor columna variable en el marco / matriz de datos. Solo si algún atributo tiene una mejor ganancia de información, se guardará; de lo contrario, se mostrará la primera columna.
CARRITO: ¿Selección del mejor predictor para dividir cuando las ganancias en la disminución de impurezas son iguales?
- Cómo visualizar algunas estructuras de datos básicos y algoritmos
- ¿Cuál es la mejor estructura de datos para almacenar y realizar una adición de dos números grandes de 512 bits?
- ¿Podemos implementar la estructura de datos de la cola usando la estructura de datos de la pila?
- ¿Cuáles son las buenas implementaciones de búfer circular sin bloqueo en Java?
- ¿Cómo afectan los nuevos algoritmos de Instagram a la búsqueda de hashtag?
Otros casos
- Si se trata de un pequeño árbol de decisión, puede ver la ganancia de información después de la división de cada atributo (alogoritmo basado en anticipación), construir el árbol y, según su comprensión teórica de los datos, elija un atributo. De lo contrario, puede construir los dos árboles y hacer una prueba de validación.
- Si se trata de una clasificación de texto, el árbol de decisión verificará el orden alfabético de los atributos. Por ejemplo, si Lovely = 0.5 y Ugly = 0.5, elegirá Lovely.
- Como el paso 2 es costoso y generalmente usa el aprendizaje automático cuando no está seguro de la relación entre las variables, puede intentar usar otros modelos.
- El algoritmo se detiene cuando la división no conduce a ninguna mejora en IG para todos los nodos.