¿Es correcto usar el conjunto de prueba como parte de un paso de pre-entrenamiento no supervisado si informa los resultados en el conjunto de prueba? ¿Se considera eso una forma de sobreajuste al conjunto de prueba?

La razón principal por la que los investigadores separan una parte de los datos de entrenamiento como un conjunto de pruebas es porque pueden ver cómo su modelo entrenado puede generalizarse a los datos invisibles cuando se implementa.

Al utilizar el conjunto de pruebas para cualquier entrenamiento previo, está asumiendo que sus datos de entrenamiento capturan claramente todas las variaciones / irregularidades presentes en los datos del mundo real (es decir, los ejemplos para los que su modelo intentará hacer predicciones, después de que haya desplegado). Esta es una suposición que a menudo es incorrecta. Por lo tanto, puede verse como un ajuste excesivo. Es muy probable que su modelo tenga un mejor rendimiento en el entrenamiento, pero habría mucha incertidumbre sobre cómo funcionará el modelo después de la implementación. Cualquier error causado por esta incertidumbre podría ser desastroso (por ejemplo, predicciones de existencias)

Así que evite usar su conjunto de prueba hasta el final. Si cree que no tiene suficientes datos para dividirlos en Conjunto de trenes, válido y de prueba, realice la validación cruzada.