Un error común es no realizar la división de entrenamiento / prueba correctamente . Debe asegurarse de tener datos que no se tocaron durante el entrenamiento y evaluar su modelo con esos datos. Y si sigue evaluando en el mismo conjunto de prueba pequeño mientras está probando diferentes modelos en el conjunto de entrenamiento, el conocimiento del conjunto de prueba comienza a introducirse en su modelo. Cuando los datos son realmente muy grandes, esto no importa demasiado: tendrá que esperar días para terminar el entrenamiento.
Debe controlar la precisión del conjunto de entrenamiento mientras ejecuta el algoritmo, pero informar los resultados en un conjunto de prueba extendido. Y no siga evaluando en el mismo conjunto de datos día y noche.
Si extrae fotogramas de un montón de videos para crear un conjunto de datos de imágenes estáticas, no podrá tomar un subconjunto aleatorio para entrenamiento / prueba. Debido a que los marcos están correlacionados, es posible que primero deba dividirse según los videos. Surgen muchos errores cuando los datos de prueba de las personas se parecen demasiado a los datos de entrenamiento. Esto a menudo se hace por accidente, así que ten cuidado.
- ¿Cuál es la mejor manera de predecir una clase +/- en un escenario de aprendizaje automático donde tengo k características trinarias y un conjunto de datos del orden de cientos o miles?
- ¿Cuáles son algunas posibles aplicaciones interesantes del aprendizaje automático?
- ¿Qué es una explicación intuitiva del parámetro gamma en SVM?
- ¿Qué tiene de bueno la PNL?
- ¿Por qué elegiría algoritmos de selección de características sobre la reducción dimensional?