Aquí hay un consejo general, cuando tiene 500 funciones, tiene al menos [matemática] 2 ^ {500} = 3 * 10 ^ {150} [/ matemática] (suponiendo que sean simplemente binarias, peor si no lo son) posibles enumeraciones para sus datos. Eso es MUCHO más que las muestras que tienes (ver Maldición de dimensionalidad). Es posible que no vea suficientes datos de entrenamiento por combinación de características, y simplemente puede sobreajustar. Básicamente, su algoritmo de clasificación elegirá un combo de características en particular como el ‘tell’ de cada punto en particular y lo clasificará correctamente.
Le recomiendo que realice un preprocesamiento, por ejemplo, puede usar PCA para reducir la dimensionalidad, o simplemente analizar la correlación entre las características y ver si puede eliminar aquellas que contienen información redundante.
La elección de su algoritmo de clasificación viene más tarde y depende realmente de la estructura de su problema. En general, los bosques aleatorios con impulso, SVM y redes neuronales son algoritmos de ‘caja negra’ que puedes probar. Pero nunca es aconsejable utilizar un método sin comprender realmente si se aplica bien a su caso.
- ¿Cuándo serán las computadoras tan rápidas que no habrá carga?
- ¿Cuál es la mejor computadora para un desarrollador de PHP?
- ¿Cuáles son las principales diferencias entre el análisis predictivo tradicional y el aprendizaje automático?
- ¿Cuál es el estado actual de la generación de pruebas automatizadas en informática?
- ¿Cuál es la ventaja del modelo basado en reglas en comparación con el modelo basado en aprendizaje automático?