¿Qué métodos de análisis deberían usarse cuando el nivel de la variable dependiente es mucho mayor que el número de variable independiente?

Hay dos cuestiones que deben considerarse en su situación.

  1. El tamaño de los datos de entrenamiento, y
  2. ¿La distribución de los valores de la variable dependiente?

En términos de aprendizaje automático, obtuviste alrededor de 40 clases, pero el número de características es 10. Esto está muy bien desde la perspectiva de la clasificación, si tienes una gran cantidad de datos de entrenamiento. Luego puede usar el árbol de decisión o cualquiera de sus clasificadores favoritos.

Surgirá un problema cuando las categorías dentro de cada una de las clases (variable dependiente) no estén distribuidas equitativamente. Por ejemplo, si tiene 10000 datos de entrenamiento y 40 clases, entonces espera que la mayoría de las clases tengan alrededor de 250 instancias. Si algunas clases se representan más que otras, entonces se encuentra en una situación de desequilibrio de datos en la que las clases mayoritarias pueden dominar a las clases minoritarias durante la clasificación. Existen técnicas para manejar esa situación, es posible que desee leer sobre esto a continuación:

La respuesta de Shehroz Khan a ¿Qué es un conjunto de datos desequilibrado?

La respuesta de Shehroz Khan a Tengo un conjunto de datos desequilibrado con dos clases. ¿Se consideraría correcto si sobremuestreo la clase minoritaria y también cambio los costos de clasificación errónea en el conjunto de capacitación para crear el modelo?

More Interesting

¿Por qué la teoría de la medida es más común en economía que en informática?

¿Cuáles son algunos temas imprescindibles en matemáticas discretas y probabilidad de programación competitiva?

¿Cuál es la complejidad temporal de un programa que calcula el número n de Fibonacci mediante la memorización?

¿Existe un algoritmo generalizado para convertir una malla de superficie triangular 3D en una malla de volumen tetraédrico?

¿Es posible convertir una imagen a una fórmula matemática?

¿Hay una mejor manera que la recursividad para encontrar palabras reducibles?

¿Cuál es la salida de un filtro Gabor?

Cómo ser bueno en matemáticas para la programación competitiva

¿Cuál es la probabilidad de que un número generado al sumar diez números aleatorios del 1 al 10 sea divisible por 2 (o 3, o 4, etc.)?

¿Qué es la criptografía de clave pública en términos simples? ¿Cómo se relaciona con los números primos?

¿Qué algoritmos se pueden usar para resolver este problema de optimización?

¿Qué tan rápido es el algoritmo de clasificación altamente paralelo más rápido, teóricamente? Quiero decir, la clasificación puede hacer tantos hilos separados como desee y todos se ejecutan simultáneamente. ¿Mejoraría sobre el límite [math] \ Omega (n \ log n) [/ math] para un solo subproceso?

¿Por qué una función está tan definida?

Como estudiante, ¿es inteligente crear mis propias bibliotecas de programación matemática?

¿Cuál es el mayor obstáculo para progresar en el aprendizaje profundo?