Mientras que los árboles de decisión y el impulso funcionan mejor con datos no balanceados. No diría que los árboles de decisión son inmunes a los conjuntos de datos no balanceados. Es posible que puedan manejarlos mejor, pero depende mucho de cómo se distribuye el 1%. Por ejemplo, si el 1% está en un área del espacio de características, funcionará bien; todos terminarán en un nodo en el árbol de decisión. Si están en 20 áreas, entonces cada área representará ~ 0.05% de los datos y el árbol de decisión lo interpretará como ruido.
La razón por la que funcionan mejor es porque su sesgo inductivo hacia los cuadros delimitadores alineados con el eje funciona mejor que el sesgo inductivo de “suavizado” de algunos alumnos (por ejemplo, Bayes ingenuos).
Impulsar lo hace aún más fuerte: básicamente, el primer clasificador podría decir “siempre 99% de clase”. Pero en la segunda ronda, por ejemplo, el refuerzo adaptativo, la clase del 99% se volverá a ponderar para que sea del 50%, lo que alentará al segundo árbol a inclinarse hacia la clase del 1%.
- ¿Cuál es la relación entre los paradigmas de Inteligencia Artificial e Inteligencia Colectiva?
- ¿Cuál es la investigación futura sobre la extracción de características utilizando la teledetección satelital?
- ¿Qué son las redes neuronales que pasan mensajes?
- ¿Dónde puedo encontrar un corpus grande de mensajes suicidas / no suicidas etiquetados para entrenar una red neuronal para reconocer las tendencias suicidas?
- ¿La IA reemplazará a los humanos en el campo del diseño?