Hay dos cuestiones que deben considerarse en su situación.
- El tamaño de los datos de entrenamiento, y
- ¿La distribución de los valores de la variable dependiente?
En términos de aprendizaje automático, obtuviste alrededor de 40 clases, pero el número de características es 10. Esto está muy bien desde la perspectiva de la clasificación, si tienes una gran cantidad de datos de entrenamiento. Luego puede usar el árbol de decisión o cualquiera de sus clasificadores favoritos.
Surgirá un problema cuando las categorías dentro de cada una de las clases (variable dependiente) no estén distribuidas equitativamente. Por ejemplo, si tiene 10000 datos de entrenamiento y 40 clases, entonces espera que la mayoría de las clases tengan alrededor de 250 instancias. Si algunas clases se representan más que otras, entonces se encuentra en una situación de desequilibrio de datos en la que las clases mayoritarias pueden dominar a las clases minoritarias durante la clasificación. Existen técnicas para manejar esa situación, es posible que desee leer sobre esto a continuación:
- ¿Cómo se puede aplicar la lógica modal a las matemáticas?
- ¿De qué se trata más la computación cuántica: Computadoras o Física y Matemáticas?
- ¿Qué puede hacer un ingeniero con la informática teórica?
- ¿Qué significa shift / reduce en el análisis?
- Cómo entender Oracle en la complejidad computacional
La respuesta de Shehroz Khan a ¿Qué es un conjunto de datos desequilibrado?
La respuesta de Shehroz Khan a Tengo un conjunto de datos desequilibrado con dos clases. ¿Se consideraría correcto si sobremuestreo la clase minoritaria y también cambio los costos de clasificación errónea en el conjunto de capacitación para crear el modelo?