¿Qué significa cuando obtengo buenos resultados de la medida F con un CV de 10 veces pero resultados pobres en los datos de la prueba, resultados similares si participo el conjunto de datos original en el conjunto de entrenamiento / validación? Obtengo buenos resultados en la validación pero malos resultados en el conjunto de pruebas.

Intuitivamente miraría 3 cosas en orden

  1. conjunto de datos: ¿cuál es la relación características / dimensión? ¿Qué tan grandes son los diferentes conjuntos en relación con las características? Por debajo de cierto nivel de p / n, las medidas de rendimiento no tienen sentido matemático.
  2. modelo: ¿qué tan flexible es? Demasiados cuadráticos y otros pueden ser contraproducentes. ¿La preparación de datos se realizó correctamente (especialmente si tiene flexibilidad)? ¿Tienes características redundantes? Colinealidad? ¿Sospecha de sinergias (x3 es solo un regresor o mosty debido a x2), etc.
  3. no está del todo claro cómo está configurado tu CV. Quizás no leí bien la pregunta. Supongo que creó el 10 veces en todo el conjunto cada vez, creando diferentes mezclas de variación entre el entrenamiento y la prueba.

Si no, es posible que desee hacer eso, y ejecutar nuevos modelos en el CV, vea cómo se comparan.

Mantendré mi respuesta general para clasificación o regresión:

En general, se supone que su modelo tiene un buen desempeño en el conjunto de entrenamiento (bueno porque está entrenado en él) y un poco pobre en el conjunto de prueba.

Ahora, cuando su modelo se desempeña muy mal en el conjunto de prueba y funciona bastante bien en el conjunto de entrenamiento, eso significaría que puede haber un problema de sobreajuste.

Entonces, lo primero que debe hacer es usar la regularización si aún no lo está haciendo. O también podría intentar obtener más datos, ya que cuando el modelo tiene una gran varianza, más datos podrían ayudar.

En su caso ahora, tiene un conjunto de validación donde su modelo está funcionando bien y el conjunto de prueba donde está funcionando mal, por lo tanto, el problema puede ser diferente, por lo que, después de la regularización, lo siguiente sería cambiar su conjunto de prueba ( si su modelo no depende del tiempo) porque podría ser posible que su conjunto de prueba simplemente no sea representativo . Por lo tanto, si todas sus instancias son independientes entre sí (en otras palabras, cada fila en la matriz de diseño es independiente entre sí), entonces revuélvalas y luego intente hacer los mismos experimentos.

Otra cosa que hacer sería mirar otras métricas además de la medida F, ya que eso podría darle una idea de cuál podría ser el problema.

Por último, haga lo siguiente para corregir su CV: No separe su conjunto de prueba mientras realiza el CV. En su lugar, haga una validación cruzada en todo el conjunto y observe el error promedio. Asegúrese de barajar las instancias antes de hacer el CV y ​​asegúrese de que no haya superposición en los pliegues. Esto último no es para mejorar sus resultados, pero generalmente así es como se hace el CV, a menos que esté haciendo CV para ajustar otro parámetro, digamos el parámetro de ajuste para la regularización. Por lo tanto, informar el error promedio del CV en todo el conjunto generalmente parece ser una práctica aceptada en la academia al informar los resultados.

Buena suerte 🙂

Más probable:
Su conjunto de prueba no es representativo. Su entrenamiento y conjunto de pruebas se dividieron de alguna manera que hace que esta sea una mala prueba. Esto sucede todo el tiempo, especialmente con pequeños conjuntos de datos. Especialmente si hiciste tu división original con respecto a la fecha o hiciste algo más que una mezcla aleatoria global antes de hacer tu división de prueba / tren. Esto sucede con mucha frecuencia.

También es probable:
Tu modelo es muy frágil. La gente realmente no se da cuenta de esto, pero al crear un conjunto de validación te estás dando permiso para sobreajustarte. Suponiendo que está pasando por su pase de validación, ejecutando algún tipo de optimización de hiperparámetro para obtener su puntaje de validación, esto puede significar que es muy fácil cambiar su modelo de modo que se sobreajuste según sus puntajes de validación.

Especialmente en los casos en que tienes muchos parámetros y un pequeño conjunto de datos, es muy probable que encajes en la segunda categoría.

Dicho esto, (casi) siempre habrá alguna regresión entre su validación y el conjunto de pruebas. No debería ser grande, pero definitivamente existirá dependiendo del modelo que elija.

Resolver:
Lo más fácil será hacer una mezcla aleatoria y un muestreo robusto para asegurarse de que su tren y el conjunto de prueba sean comparables.

Si se trata de un conjunto de datos pequeño, debe reducir la cantidad de pliegues en su CV. Básicamente, este es un problema de sobreajuste, y agregar datos reduce su capacidad / penalización de sobreajuste.

More Interesting

¿Qué es el generador Deep Dream?

¿Cuál es la función de transferencia en redes neuronales artificiales?

¿Cuál es el papel de una capa totalmente conectada en una red neuronal profunda?

¿Qué es un buen libro que discute los principios de la ingeniería de características, en el contexto del aprendizaje automático?

¿Qué importancia tienen las estructuras de datos y los modelos gráficos para el aprendizaje automático?

Aprendizaje automático: al construir un modelo de regresión lineal, ¿cómo decido entre variar el grado del polinomio y variar el parámetro de regularización?

¿Qué pasos son necesarios para construir un sistema de aprendizaje profundo para el análisis de sentimientos, tomando como datos de entrada de las redes sociales?

¿Cuál es el significado de muchas sinapsis entre dos neuronas en la red neuronal?

¿Qué conocimientos de matemática / estadística y CS debo dominar (no matemático / stat / CS, pero graduado en ingeniería) para carrera / investigación en aprendizaje automático?

Estoy muy interesado en el aprendizaje profundo. ¿Cómo puedo ser contratado?

¿Qué tan buenas son mis posibilidades de conseguir un trabajo de científico de datos con un doctorado en el campo de la visión por computadora?

¿Cuáles son las innovaciones clave en el documento 'Evolución a gran escala de clasificadores de imágenes' de Google Brain?

¿El aprendizaje automático no supervisado basado en la agrupación de datos también determina automáticamente la cantidad de agrupaciones?

En el muestreo de importancia, ¿cuál es la diferencia entre [matemáticas] p (x) [/ matemáticas] y [matemáticas] q (x) [/ matemáticas]?

Estoy creando una plataforma de transmisión en vivo: ¿cómo puedo conectarme y usar varias cámaras web al mismo tiempo?