¿Por qué hay una disminución en el rendimiento de los modelos pre-entrenados?

Encuentro que el rendimiento de los modelos (vgg16,19, xception) disminuye con el aumento en el número de instancias de capacitación y validación.

Según los pequeños detalles proporcionados, me pregunto si su observación (disminución del rendimiento del conjunto de pruebas) es estadísticamente significativa.

Para el caso, incluso el entrenamiento en el mismo conjunto de entrenamiento varias veces, para el mismo número de iteraciones, produce un rendimiento diferente del conjunto de prueba debido a la naturaleza aleatoria de SGD.

También supongo que no tienes muchas imágenes RBC, por lo que debes comenzar desde la red pre-entrenada (ImageNet?) En primer lugar. ¿Es entonces significativo el “aumento en el número de instancias de capacitación”? ¿Es esto un aumento del 10%, un aumento del 100% o un aumento del 1000% (10x)? No tomaría en serio aumentos menores en las instancias de entrenamiento (nada menos que duplicar los datos de entrenamiento; en el régimen de datos bajos) en serio. Tus observaciones podrían ser solo ruido.

¿Estás tratando de aprender toda la red con un puñado de datos? Eso tampoco sería sabio. Las redes mencionadas son bastante profundas y pueden adaptarse fácilmente. Solo recomendaría optimizar las últimas capas de la red; de hecho utilizando una red más pequeña, por ejemplo, AlexNet.

También recomendaría dar más detalles, incluido el tamaño de los conjuntos de entrenamiento / val, así como los intervalos en los que los aumenta, así como la diferencia en el rendimiento. Quizás también un par de ejemplos de cómo se ven estas imágenes.

Hay muchas posibilidades aquí.

Una de las cosas que me viene a la mente es que quizás no esté muestreando de manera uniforme a partir de los datos. En ese caso, el uso de un tamaño de muestra pequeño hace que la red necesite aprender la solución solo en un pequeño subconjunto del conjunto de datos.

También es posible que su función de pérdida no sea invariante en el tamaño de la muestra. Asegúrese de utilizar la pérdida promedio, no la pérdida total.

También es posible que esté tomando una muestra estratificada de un conjunto de datos no equilibrado y, a medida que su muestra se agrande, algunos de los estratos se agoten por completo y su conjunto de datos comience a tener un rendimiento asimétrico y asimétrico.

Hay demasiadas posibilidades para dar una sola respuesta sin más información.

More Interesting

Cómo encontrar qué variable de característica es más predictiva en un problema de clasificación binaria

¿Qué significa la implementación del algoritmo de aprendizaje automático distribuido?

¿Cuáles son algunos proyectos interesantes del último año relacionados con el aprendizaje automático?

¿En qué se diferencia LSTM de RNN? En una explicación laica.

¿Cómo probar formalmente que el producto de dos núcleos es un núcleo? Si K1 (x, x1) y K2 (x, x2) son ambas funciones del núcleo, entonces K1 (x, x1) K2 (x, x2) también es un núcleo

¿Cómo toman decisiones las neuronas del cerebro? ¿Funcionan de la misma manera que las neuronas artificiales en ANN?

¿A qué tipo de personalización en Machine Learning se refería Andrew Ng en su artículo de Harvard Business Review sobre las capacidades de IA?

¿Hay alguna forma de implementar TSVM usando bibliotecas SVM?

¿Por qué la minería de datos con aprendizaje automático no implica pruebas de hipótesis estadísticas?

Cómo medir cómo suenan dos señales similares

¿Cuál es la diferencia entre clasificación (binaria y multiclase), regresión y agrupamiento?

¿Cuáles son las aplicaciones más prometedoras de ML / AI en el cuidado de la salud, excluyendo la informática de imágenes?

¿Qué debo hacer cuando tengo una cita con las características NULL?

Mi campo de interés para el doctorado es la visión por computadora, el aprendizaje automático y el procesamiento de imágenes. ¿Qué recursos hay para principiantes con respecto a estos temas? Yo sé Java; ¿Debo aprender otros idiomas primero o puedo comenzar los cursos de inmediato?

Cómo usar la prueba T de Student para la selección de funciones