Por lo general, significa que su modelo solo puede proporcionar predicciones discretas, en lugar de una puntuación continua. Esto a menudo se puede remediar agregando más muestras a su conjunto de datos, teniendo características más continuas en el modelo, más características en general o utilizando una especificación de modelo que proporcione una salida de predicción continua.
La razón por la que ocurre en un árbol de decisión es que a menudo haces divisiones binarias; Esto es eficiente computacionalmente, pero solo da 2 ^ n agrupaciones. A menos que su n número de divisiones sea muy grande, solo tendrá 16/32/64/128 grupos, mientras que si usara un algoritmo como la regresión logística y las variables continuas, su predicción caería en el rango continuo entre 0 y 1. No estoy familiarizado con el tipo de datos que enumeró, pero sospecho que tiene muchos datos categóricos.
No es necesariamente un problema tener un ROC que sea discreto en lugar de suave, realmente depende de sus objetivos para el modelo (descriptivo vs prescriptivo), así como de qué tan bien se ajusta su modelo en los conjuntos de datos fuera de la muestra. Muchos de los problemas que he resuelto en mi carrera solo necesitaban una línea de Sí / No (como enviar un correo electrónico a esta persona / no enviar un correo electrónico), por lo que no era necesario tener una predicción continua y fluida a lo largo del rango de entradas.
- ¿Es bueno aprender que la analítica de datos es más fresca cuando no tengo idea de la analítica de datos?
- Soy un graduado de economía que planea realizar análisis de datos. ¿Cuál debería ser mi primer paso?
- ¿Cuál es el mejor instituto de capacitación en ciencia de datos en el área de Kondapur / Madhapur en Hyderabad?
- ¿Cuáles son los desafíos para clasificar los datos informáticos de salud?
- ¿Cuál es el panorama del big data en 2016?