Cómo hacer un software de árbol de decisiones más interactivo La tecnología cambia la vida futura

Lluvia de ideas inicial (no importa mi ingenuidad que todavía estoy aprendiendo):

Operaciones de datos:
La capacidad de insertar y eliminar variables en un determinado nodo y luego recalcular los subárboles.

La capacidad de agregar transformaciones para variables en diferentes nodos y luego recalcular subárboles. Para los puntos de datos, se pueden generar nuevas variables transformando las antiguas, o grupos de antiguas basadas en criterios.

La capacidad de agregar más puntos de datos a varios subárboles. Digamos que realizó un preprocesamiento y separó los puntos de datos en dos grupos utilizando una heurística y desea tratar a estos grupos de manera un poco diferente. En algunos casos, si lo deja en el árbol, la división en otras variables conducirá a una mayor ganancia de información y dividirá estos grupos para que pueda construir el árbol y luego insertar el segundo grupo después de que ya se hayan realizado varias divisiones que separa algunos de los datos problemáticos.

La capacidad de cambiar las medidas de información para varios subárboles y luego recalcular. Los árboles de decisión son buenos con conjuntos de características heterogéneas, pero estamos atascados usando las mismas medidas de información para todas las divisiones (gini versus Shannon, etc.)

La capacidad de vincular los árboles de decisión: Dados dos árboles de decisión, puede arrastrar y soltar algún nodo hoja del árbol A para vincularlo a algún nodo de decisión en el árbol B. Esto toma los puntos de datos de A (que puede usar un subconjunto de variables diferente ) y los agrega al segundo árbol.

La capacidad de tomar la salida de una rama (alguna hoja) y moverla de vuelta al árbol, agregarla a otra rama y luego volver a calcular el árbol.

Para conjuntos de árboles, la capacidad de establecer parámetros para diferentes árboles. (diferentes profundidades máximas, etc.)

Apariencia y visualización:
Exploración de datos y visualización de conjuntos de datos en los subárboles: la capacidad de ver cosas como las distribuciones de una hoja en particular.

La capacidad de codificar los subárboles de color según los criterios. La capacidad de codificar las rutas de ramificación del código según los criterios (por ejemplo, el peso promedio de los puntos de datos en esa ruta).

Abran y cierren de manera estándar las rutas de las ramas de los subárboles para crear árboles más bonitos

La capacidad de reorganizar las rutas de las ramas si desea hacer eso, sería el mismo árbol pero podría verse mejor. Por ejemplo, muchos árboles forman cadenas diagonales si hay una gran cantidad de clases que requieren solo unas pocas variables para clasificarse. Al alternar de qué lado se coloca el camino dominante, se convertiría en una línea vertical en zigzag.

Para conjuntos, la capacidad de hacer clic y hacer zoom en un árbol en particular. La capacidad de codificar por colores árboles particulares. La capacidad de mostrar diferentes árboles en diferentes tamaños según su peso.