Independientemente del método que elija, el uso de solo una fracción del conjunto de datos tabulares no afectará drásticamente el rendimiento del modelo . Más de 100 mil filas es difícil ver grandes mejoras de AUC al agregar más datos.
Además, SVM es notoriamente lento .
Si puedes usar un algoritmo lineal
- ¿Es el sesgo entre las mejores universidades frente a otras universidades en los Estados Unidos tan malo como el sesgo de IIT frente al resto de la India?
- ¿Cuáles son los mejores algoritmos para el conjunto de datos de preservación de la privacidad?
- ¿Hay alguna manera fácil de configurar AWS para el aprendizaje profundo con Tensorflow y Keras?
- ¿Cómo y dónde podemos comenzar a implementar proyectos basados en el aprendizaje automático y qué idioma es preferible para el mismo?
- ¿Qué es mejor en términos de ROI: MS en informática o MS en análisis de datos / ciencia de datos en EE. UU.?
- Pruebe LinearSVR en lugar del núcleo lineal (u otro) dentro de SVR.
- Pruebe SGDRegressor en lugar de SVR. Más rápido y puede hacer un aprendizaje incremental a través de
partial_fit
, por lo que todo el conjunto de datos no se guarda en la memoria. Requiere más afinación.
Si tiene que usar un algoritmo no paramétrico (por ejemplo, para la precisión del modelo)
- Pruebe NuSVR en lugar de SVR. Puede restringir el número de vectores de soporte para una solución más rápida (pero menos precisa).
- Prueba RandomForestRegressor. Puede ser rápido con poca necesidad de sintonización.