¿Debería haber una relación específica entre el número de características y el número de clases? Si tengo 15 funciones pero 50 clases con 1000 datos de entrenamiento, ¿tendré un problema de sobreajuste? ¿Y cuál es la mejor técnica de clasificación para esta relación?

La proporción necesaria es aquella entre el número de ejemplos ( no características ) para cada clase.

El sobreajuste ocurre cuando un modelo aprende detalles irrelevantes y ruido en los datos de entrenamiento, lo que afecta su capacidad de generalización en nuevos datos que pueden no tener ese ruido. En base a esto, creo que es más probable que se produzca un sobreajuste a medida que aumenta el número de características.

La base de la clasificación son las características distintivas. Lo importante es que hay al menos una característica que es capaz de identificar claramente las diferentes clases. De hecho, es por eso que existen técnicas de reducción de dimensionalidad como PCA, LDA, etc. donde en el caso de PCA, el objetivo es reducir el conjunto de características a aquellas que proporcionan la máxima variación para evitar la maldición de la dimensionalidad . Por lo tanto, cuanto menos características distintivas, mejor.

En cuanto a la elección de la técnica de clasificación, en primer lugar, ¿son todas esas características realmente importantes? Quizás, intentar aplicar PCA puede ayudar a reducir la dimensionalidad. Pero lo más importante, la elección del algoritmo de clasificación realmente no depende de la relación de características a clases. Quizás, si tiene restricciones de memoria, entonces un árbol de decisión no será una buena opción, ya que necesitará mucha memoria para contener las diferentes ramas.

Lamento no poder contarte más, pero depende de tus datos. Una forma estándar de ver si está sobreajustando su modelo o no es separar sus datos en un conjunto de entrenamiento (digamos 800 de ellos) y un conjunto de prueba (los 200 restantes) que no utilizará para optimizar. Cuando traza la precisión de su clasificador a lo largo de los pasos de entrenamiento, verá un sobreajuste cuando la precisión en el conjunto de entrenamiento seguirá mejorando, pero que la del conjunto de prueba comenzará a disminuir.

En cuanto a la técnica, si su característica no está correlacionada, puede usar el forrest aleatorio, si es así, SVM son eficientes. Nuevamente, eso depende de su aporte.