Si pronostico grupos en un conjunto de trenes completo y los uso como características categóricas y realizo CV, ¿sería una fuga?

Sí, es una fuga y sus puntajes de CV serán demasiado optimistas. Habrás utilizado información del conjunto de validación en tu CV durante la etapa de ingeniería de características y, por lo tanto, tus características ya habrán visto el conjunto de validación en el CV. Solo debe realizar la agrupación dentro del conjunto de trenes de su CV, es decir, después de haber realizado la división tren / val en su CV.

Dicho esto, normalmente la agrupación no está supervisada, por lo que no ha visto las etiquetas del conjunto de validación. La fuga en este caso es probablemente relativamente menor, ciertamente mucho menor que si hubiera realizado técnicas de selección de características que tengan en cuenta las etiquetas. Puede verificar esto haciendo una división de tren / val / prueba de tres vías, para ver si sus puntajes de CV en el conjunto de tren / val siguen sus puntajes del conjunto de pruebas. Además, dado que la agrupación no está supervisada, puede volver a agrupar todos los datos, incluido el conjunto de prueba, antes de volver a entrenar en el conjunto tren + val, y luego hacer predicciones sobre el conjunto de prueba. Si esto es lo que planea hacer, entonces agruparse en el tren + val antes de hacer CV es lo correcto, ya que imitará lo que hace en el conjunto de prueba antes de la predicción.

Aquí hay una buena regla que lo ayudará a evitar fugas relacionadas con el CV:

La división va primero.

En una situación de la vida real, no tendrá acceso a su conjunto de pruebas, así que esa es la forma correcta de tratarlo. Si tiene un gran conjunto de datos y necesita un procesamiento por lotes, probablemente sea mejor preparar dos conjuntos de índices: para capacitación y pruebas. Implementaría una tubería de procesamiento de datos que se ve así:

Todas las extracciones de características van después de alimentarlo con conjuntos de datos sin formato con formato idéntico.

Fuente: Nick Gillian

Cuando realiza la extracción de características en el conjunto de datos, especialmente la agrupación / incrustación, la información contenida en otras muestras influye en todas sus muestras. Tal proceso inevitablemente produce fugas, excepto en algunos casos realmente triviales. Cuando esta operación se limita al alcance de una determinada submuestra, se obtiene el mismo proceso que se obtendría en la vida real.

No entiendo cómo usaste los clústeres como características categóricas. Sin embargo, si su conjunto de prueba no está involucrado en el ajuste de los parámetros de un clasificador, puede hacer lo que quiera con sus datos de entrenamiento. Y si se sigue eso, no hay pérdida de información.

More Interesting

¿Una red neuronal necesita un nodo de salida para cada cosa que pueda clasificar?

¿Puede el desarrollador de hadoop aprender el aprendizaje automático?

¿Cómo se puede utilizar el aprendizaje automático en el análisis de tendencias?

¿Las GPU seguirán dominando la inteligencia artificial y el aprendizaje automático, aumentando el valor de compañías como Nvidia y AMD, o los chips especializados como los de Graphcore se harán cargo?

¿Cuál es la diferencia entre la red neuronal y la regresión logística?

¿Qué métodos / códigos están disponibles para estudiar un corpus que consiste en correos electrónicos?

¿Cómo entrenamos un clasificador para el cual solo tenemos: 1) un conjunto de datos que son datos de entrenamiento explícitamente positivos y 2) un conjunto de datos que se desconoce (tiene el potencial de ser positivo o negativo)?

Cómo saber formalmente si una función objetivo es convexa o no convexa

Cómo estudiar el aprendizaje automático mientras se construye una cartera

Cómo justificar el rendimiento de un modelo de aprendizaje profundo personalizado (CNN)

¿Por qué el aumento de gradiente funciona tan bien para tantos problemas de Kaggle?

¿Cuánto tiempo tomará aprender Python para que pueda aprender el aprendizaje automático?

¿Cuáles son las ideas principales detrás de los principales algoritmos de clasificación de búsqueda?

¿Cuál es el punto de usar el problema dual cuando se ajusta SVM?

¿Por qué la resolución de las imágenes de entrada en la red convolucional debe tener la misma dimensión (ancho y alto)?