Cuando se estandarizan los datos como un paso de preprocesamiento, ¿por qué se usa la media y la varianza utilizadas en el tiempo del tren también en el momento de la prueba?

La respuesta de Sujit Pal cubre por qué tiene sentido en el momento de la prueba usar la media y la varianza que se usaron en el tiempo del tren.

Pero la respuesta a por qué no debe usar la media y la varianza de la prueba es mucho más general: en casos estándar del mundo real, no tiene acceso a los datos de la prueba en el momento del entrenamiento y, por lo tanto, sería un protocolo experimental inadecuado para use los datos de la prueba de cualquier forma durante el entrenamiento. Por ejemplo, si está haciendo el reconocimiento de voz en un dispositivo móvil, no tiene acceso a la voz futura, el usuario hablará por teléfono cuando esté entrenando a su modelo.

Entonces, en el experimento de aprendizaje automático estándar, no te permites mirar los datos de la prueba durante el entrenamiento, porque entonces tu experimento no sería representativo de lo que sucede cuando usas tu modelo en la naturaleza.

Ciertamente, hay escenarios en los que tiene acceso a los datos de prueba en el momento del entrenamiento (consulte Transducción (aprendizaje automático) para ver un ejemplo de lo que puede hacer de manera diferente en este caso), y en esos casos puede tener sentido incluir los datos de prueba en calculando la media y la varianza.

Gracias por el A2A.

Como ha estandarizado los datos en el lado del entrenamiento, su modelo está entrenado para predecir el uso de entradas que también están estandarizadas. Por lo tanto, sus datos de prueba deben estandarizarse. Desea estandarizar el uso de la media y la varianza del entrenamiento porque sus datos deben parecerse a los datos del entrenamiento, es decir, el mismo tipo de distribución en el que se entrenó el modelo.

More Interesting

¿Cuáles son las mejores prácticas cuando se utiliza el análisis predictivo para la industria? ¿Hay algunos marcos o pautas?

¿Hay algún lugar en la ciencia donde la biblioteca estadística de Python sea pobre o inmadura en comparación con R?

¿Cómo se deriva la fórmula lagrangiana para resolver la máquina de vectores de soporte?

¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?

¿Es el aprendizaje automático una mejor forma o técnica para comprender los datos y hacer pronósticos que las estadísticas?

¿Cuáles son los problemas con el enfoque de clasificación uno contra todos?

Al entrenar una red neuronal, ¿es común tener un tamaño de paso diferente para los parámetros en cada capa y las compensaciones al realizar el Descenso de gradiente?

¿Cuáles son los grandes problemas en la inferencia variacional?

¿Cuáles son algunas de las limitaciones o inconvenientes de las redes neuronales convolucionales?

¿Puedes explicar cómo el BPTT sufre un problema de gradiente?

Cómo adaptar el filtrado colaborativo para un sistema de recomendación si solo tiene datos de compra a nivel de pedido y no datos a nivel de usuario

Qué rama es mejor en THAPAR UNIVERSITY: Computer Science Core (COE) o Hons. ¿En el aprendizaje automático y el análisis de datos (CML)?

¿Cuál es el mejor algoritmo para descubrir todos los nodos de la red y mantener esa red en tiempo real?

Con respecto al descenso de gradiente funcional, ¿qué significa minimizar un funcional con respecto a una función? Proporcione un ejemplo claro.

¿Cuáles son los algoritmos / documentos de última generación sobre clasificación y recuperación de imágenes?