¿Cuáles son algunas trampas comunes al estudiar la clasificación en el aprendizaje automático?

Un error común es no realizar la división de entrenamiento / prueba correctamente . Debe asegurarse de tener datos que no se tocaron durante el entrenamiento y evaluar su modelo con esos datos. Y si sigue evaluando en el mismo conjunto de prueba pequeño mientras está probando diferentes modelos en el conjunto de entrenamiento, el conocimiento del conjunto de prueba comienza a introducirse en su modelo. Cuando los datos son realmente muy grandes, esto no importa demasiado: tendrá que esperar días para terminar el entrenamiento.

Debe controlar la precisión del conjunto de entrenamiento mientras ejecuta el algoritmo, pero informar los resultados en un conjunto de prueba extendido. Y no siga evaluando en el mismo conjunto de datos día y noche.

Si extrae fotogramas de un montón de videos para crear un conjunto de datos de imágenes estáticas, no podrá tomar un subconjunto aleatorio para entrenamiento / prueba. Debido a que los marcos están correlacionados, es posible que primero deba dividirse según los videos. Surgen muchos errores cuando los datos de prueba de las personas se parecen demasiado a los datos de entrenamiento. Esto a menudo se hace por accidente, así que ten cuidado.

Hay muchas trampas cuando intentas construir y usar aplicaciones de aprendizaje automático.

Probablemente, una buena parte de esos problemas se debe a un primer problema con el que lidiar, que es: ¿cuál es el mejor algoritmo o método para usar para su problema?

Un buen artículo para leer sobre este y muchos otros escollos en el aprendizaje automático es: “Algunas cosas útiles que debe saber sobre el aprendizaje automático” .

Aquí está la copia editada por ACM: Algunas cosas útiles que debe saber sobre el aprendizaje automático, pero también hay una versión gratuita de este documento en línea.