Sí, es una fuga y sus puntajes de CV serán demasiado optimistas. Habrás utilizado información del conjunto de validación en tu CV durante la etapa de ingeniería de características y, por lo tanto, tus características ya habrán visto el conjunto de validación en el CV. Solo debe realizar la agrupación dentro del conjunto de trenes de su CV, es decir, después de haber realizado la división tren / val en su CV.
Dicho esto, normalmente la agrupación no está supervisada, por lo que no ha visto las etiquetas del conjunto de validación. La fuga en este caso es probablemente relativamente menor, ciertamente mucho menor que si hubiera realizado técnicas de selección de características que tengan en cuenta las etiquetas. Puede verificar esto haciendo una división de tren / val / prueba de tres vías, para ver si sus puntajes de CV en el conjunto de tren / val siguen sus puntajes del conjunto de pruebas. Además, dado que la agrupación no está supervisada, puede volver a agrupar todos los datos, incluido el conjunto de prueba, antes de volver a entrenar en el conjunto tren + val, y luego hacer predicciones sobre el conjunto de prueba. Si esto es lo que planea hacer, entonces agruparse en el tren + val antes de hacer CV es lo correcto, ya que imitará lo que hace en el conjunto de prueba antes de la predicción.
- ¿Cómo detectamos el sobreajuste y la falta de ajuste en Machine Learning?
- ¿Cómo puedo aprender a realizar simulaciones de dinámica molecular? ¿Cuáles son algunas buenas fuentes para aprender sobre este campo?
- Yoshua Bengio: ¿cuáles son las preguntas abiertas más importantes en el aprendizaje profundo?
- ¿Los principales profesionales de aprendizaje profundo a menudo tienen grandes lagunas de conocimiento debido a lo rápido que se mueve el campo?
- ¿Cuáles son las futuras áreas de investigación del aprendizaje automático y el reconocimiento de patrones para comenzar el doctorado y necesito algunas cosas buenas relacionadas con eso? como tesis doctorales y papel para estudiar?