¿Qué pasaría si pocos puntos de datos son comunes en los conjuntos de capacitación y validación?

Entonces obtienes una calificación de precisión muy inexacta. Mi profesor de aprendizaje automático tenía una historia sobre un pequeño equipo que dirigió que hizo un filtro de spam en el pasado.

Su equipo reunió un modelo de regresión logística relativamente simple y le envió un montón de correos electrónicos. Luego, lo probó y obtuvo … 0% de error. Intentaron y trataron de entender por qué, pero terminaron concluyendo que el modelo era perfecto, incluso en cientos de miles de correos electrónicos de muestra. Luego lo soltaron. El error en el campo estaba en el 80% superior.

¿Por qué? No tuvieron en cuenta el hecho de que los spammers envían regularmente el mismo correo electrónico a docenas, si no a cientos de destinatarios. En los datos había muchas copias de los mismos correos electrónicos, excepto con los nombres cambiados. Aunque esta es una situación mucho peor que la descrita en la pregunta … muestra cuán mal sesga la calificación de error de prueba.

¿Lección? No (inadvertidamente) pruebe sus datos de entrenamiento.

Aprendizaje automáticoAprendizaje profundoCiencia de datosRedes neuronales artificialesValidación

Related Content

¿Cuáles serán los 3 principales problemas de aprendizaje profundo en los próximos 5 años?

¿Es C ++ un buen lenguaje para el aprendizaje automático?

Cómo implementar el aprendizaje automático en una aplicación de Android

Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados en una entrada de imagen

¿Cómo se puede imputar valores perdidos en SAS?

¿Es efectivo el entrenamiento de confrontación contra los ejemplos de confrontación en general?

¿Necesito aprender el servidor MCSA para convertirme en un experto en seguridad de red, o es suficiente CCNA y CCNP?

More Interesting

¿Qué es el algoritmo de agrupación de Markov?

¿Cómo es trabajar en el equipo de Machine learning / Data Mining?

¿Es posible comenzar la investigación académica en matemáticas / aprendizaje automático sin la ayuda de un asesor? Está ocupado con su propuesta de subvención.

¿Por qué no utilizamos la regresión logística para grandes conjuntos de datos de características?

¿Cuáles son los algoritmos utilizados en los sistemas de preguntas y respuestas en PNL?

¿Puedo incluir el aprendizaje automático en mi currículum después de aprender scikit-learn?

Cómo calcular la probabilidad de que una oración aparezca en algún lugar del texto usando Word2Vec

¿Las computadoras son ahora jugadores de póker más fuertes que los humanos?

¿Qué métodos (sin supervisión) deberían usarse para la categorización jerárquica automática de documentos?

¿Cómo puede un estado en el aprendizaje por refuerzo tener dos valores? Por ejemplo, como en el blackjack donde el as es 1 u 11.

¿Por qué las redes neuronales artificiales se usan ampliamente en la clasificación de imágenes?

Cómo construir un sistema de recomendación de itinerario basado en las preferencias del usuario

¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

He implementado con éxito el Descenso de gradiente estocástico y el Descenso de gradiente más pronunciado en C ++. ¿Qué puedo hacer a continuación?

¿Cuál es un ejemplo básico de aprendizaje automático?

Web Analytics