La respuesta de Sujit Pal cubre por qué tiene sentido en el momento de la prueba usar la media y la varianza que se usaron en el tiempo del tren.
Pero la respuesta a por qué no debe usar la media y la varianza de la prueba es mucho más general: en casos estándar del mundo real, no tiene acceso a los datos de la prueba en el momento del entrenamiento y, por lo tanto, sería un protocolo experimental inadecuado para use los datos de la prueba de cualquier forma durante el entrenamiento. Por ejemplo, si está haciendo el reconocimiento de voz en un dispositivo móvil, no tiene acceso a la voz futura, el usuario hablará por teléfono cuando esté entrenando a su modelo.
Entonces, en el experimento de aprendizaje automático estándar, no te permites mirar los datos de la prueba durante el entrenamiento, porque entonces tu experimento no sería representativo de lo que sucede cuando usas tu modelo en la naturaleza.
- ¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?
- ¿Cuál es la forma óptima de almacenar y cargar un gran conjunto de datos de imágenes?
- ¿Puede la operación de agrupamiento aumentar el número de neuronas en el aprendizaje profundo?
- ¿Cómo explicaría el concepto de una capa convolucional en una red profunda a una persona no técnica?
- ¿Existen algoritmos que hacen lo contrario de la detección de anomalías, por ejemplo, señalan ocurrencias regulares en datos ruidosos?
Ciertamente, hay escenarios en los que tiene acceso a los datos de prueba en el momento del entrenamiento (consulte Transducción (aprendizaje automático) para ver un ejemplo de lo que puede hacer de manera diferente en este caso), y en esos casos puede tener sentido incluir los datos de prueba en calculando la media y la varianza.