En general, cuando está creando un problema de aprendizaje automático, tiene un conjunto de ejemplos que se le dan, etiquetado como A. A veces tiene un conjunto de ejemplos por separado que no está destinado a ser utilizado para la capacitación, llamemos a esto B. Esto nos da las cuatro opciones en Weka:
- Cree un modelo en el archivo A, aplíquelo al archivo A: esto es una prueba en el conjunto de entrenamiento. Esta es generalmente una mala idea desde el punto de vista de la evaluación. Esto es como ver las mismas preguntas exactamente en el examen como lo haría en la vida real. Algunos clasificadores (por ejemplo, el vecino más cercano, por ejemplo) siempre obtienen el 100% en el conjunto de entrenamiento.
- Cree un modelo en el archivo A, aplíquelo al archivo B: si tiene un archivo B, este es el que desea hacer. Pero no siempre tienes un archivo B.
- ¡Pero los datos son caros! Y podríamos estar usando B para entrenamiento en lugar de pruebas. Entonces, ¿qué pasa si tomo el archivo A, lo divido en 5 partes iguales, T, U, V, W, X. Luego entreno en T, U, V, W y pruebo en X. Luego entreno en T, U, V , X y prueba en W, y prueba de manera similar en V, U y T, y luego promedia los resultados de precisión. Debido a que estoy repitiendo el proceso 5 veces, obtengo una varianza más baja, por lo que es probable que mi estimación de la precisión de mi clasificador esté más cerca de la verdad. Esta sería una validación cruzada de 5 veces. ¡También lleva 5 veces más tiempo!
- Ugh Odio que lleve 5 veces más tiempo, así que ¿por qué no hago solo un pliegue? Divida los datos en 80% de entrenamiento y 20% de prueba. Esta es la división porcentual.
¿Cuándo aplicar cada uno?
- Nunca pruebe en el conjunto de entrenamiento, a menos que tenga una buena razón.
- En ausencia de otras cosas y si el conjunto de entrenamiento es pequeño, siempre haré validación cruzada. ¡Tenga en cuenta que aunque es lento, es paralelizable!
- En general, no usaré un conjunto de prueba separado (a menos que sepa que el conjunto de prueba tiene una distribución diferente); y no haré división porcentual a menos que haya una muy buena razón.
- ¿En qué casos notamos un problema de gradiente que explota o desaparece y por qué?
- ¿Cómo funcionan los algoritmos de aprendizaje automático de Google?
- ¿El sobreajuste en un conjunto de datos implica que el modelo realmente puede aprender y generalizar sobre ese conjunto de datos, pero desafortunadamente demasiado entrenado?
- ¿Cuán verdadera es la frase '95% de los sofisticados algoritmos de 'aprendizaje automático' son lanzados a los datos por alguien que solo tiene la comprensión más superficial de lo que realmente están haciendo '?
- Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo