La proporción necesaria es aquella entre el número de ejemplos ( no características ) para cada clase.
El sobreajuste ocurre cuando un modelo aprende detalles irrelevantes y ruido en los datos de entrenamiento, lo que afecta su capacidad de generalización en nuevos datos que pueden no tener ese ruido. En base a esto, creo que es más probable que se produzca un sobreajuste a medida que aumenta el número de características.
La base de la clasificación son las características distintivas. Lo importante es que hay al menos una característica que es capaz de identificar claramente las diferentes clases. De hecho, es por eso que existen técnicas de reducción de dimensionalidad como PCA, LDA, etc. donde en el caso de PCA, el objetivo es reducir el conjunto de características a aquellas que proporcionan la máxima variación para evitar la maldición de la dimensionalidad . Por lo tanto, cuanto menos características distintivas, mejor.
- ¿Por qué utilizamos la política codiciosa de epsilon para la evaluación en el aprendizaje por refuerzo?
- ¿Qué papel juega la función logística en el algoritmo de regresión logística en el aprendizaje automático?
- ¿Qué matemáticas se necesitan para este curso de aprendizaje automático?
- ¿Qué enfoques utilizaron los participantes en Quora ML CodeSprint 2013?
- ¿Puedo usar la agrupación (k-means, etc.) en un gran conjunto de datos para automatizar el proceso de búsqueda de similitudes y hacer recomendaciones?
En cuanto a la elección de la técnica de clasificación, en primer lugar, ¿son todas esas características realmente importantes? Quizás, intentar aplicar PCA puede ayudar a reducir la dimensionalidad. Pero lo más importante, la elección del algoritmo de clasificación realmente no depende de la relación de características a clases. Quizás, si tiene restricciones de memoria, entonces un árbol de decisión no será una buena opción, ya que necesitará mucha memoria para contener las diferentes ramas.