Cómo justificar el rendimiento de un modelo de aprendizaje profundo personalizado (CNN)

¿Puede ser al revés? ¿Cómo justifica el uso de la transferencia de aprendizaje en lugar de usar un modelo más simple que aprende sus propias características?

El aprendizaje por transferencia todavía tiene sus limitaciones. Los modelos pre-entrenados como VGG / ResNet producen características muy útiles la mayor parte del tiempo, pero ¿qué pasa si su dominio está tan lejos de los datos en ImageNet, que la arquitectura y los pesos de VGG son un impedimento? ¿Puede ser una exageración? Porque si es así, llevará mucho tiempo volver a entrenar todo y obtener un resultado útil, haciendo que los esfuerzos para realizar el aprendizaje de transferencia sean inútiles.

Como ejemplo de la vida real, considere el problema de segmentación celular. ¿Cómo pueden contribuir las características aprendidas de un conjunto de datos de animales / aviones / personas / edificios a la detección de mitocondrias?

La otra gran diferencia es la formulación del problema, VGG / ResNet fueron diseñados para la clasificación multiclase, lo que significa que aprender mucha información irrelevante. Se puede resolver ajustando un VGG preentrenado aumentado con algunas capas aumentadas con unas pocas capas para la clasificación binaria, cambiando así la información “intra-red” de “perro-vs-gato-vs-rana-vs-casa” a “perro-no-perro”. El otro lado de dicha práctica es que la cantidad de pesos almacenados internamente también puede ser demasiado, lo que requerirá una regularización adicional … ¿por qué molestarse, cuando puede tomar una red más pequeña?

Probablemente sea uno de esos casos de “menos es más”, por lo que, con respecto a la pregunta del revisor, un análisis un poco más profundo de la tarea es muy útil.

Lo que puedo ver de su pregunta es: debe justificar el rendimiento del modelo de aprendizaje profundo personalizado con respecto a los modelos de aprendizaje de transferencia como AlexNet, Vgg16; 19, ResNet.

Es sorprendente ver que está obteniendo una mayor precisión con menos capas de convolución, pero la pregunta es “¿qué problema está tratando de resolver utilizando el Modelo de aprendizaje profundo personalizado?”. Compruebe si AlexNet, Vgg y ResNet se han utilizado para resolver problemas similares o iguales. En caso afirmativo, la comparación de rendimiento es trivial; de lo contrario, debe usar AlexNet, Vgg y ResNet en su problema y registrar su precisión. Ahora, simplemente compare la precisión de AlexNet, Vgg, ResNet y su modelo de aprendizaje profundo personalizado.

Además de esto, le sugiero que realice una serie de experimentos enumerados en los documentos de AlexNet, Vgg y ResNet para que tenga un amplio escenario de comparación.

Lo que sé es que el problema de clasificación binaria puede resolverse mediante una red neuronal convolucional de capa única. Cuán diferente es su modelo de esta red también es una preocupación.

Se puede dar una respuesta más específica, si tenemos una idea sobre el problema que está tratando de resolver.

Espero eso ayude !!

Eso es obvio si su tarea es diferente a los modelos de aprendizaje de transferencia; porque su CNN personalizada le está dando un modelo específico de la tarea después del entrenamiento, mientras que los modelos de aprendizaje de transferencia supuestamente están entrenados en una tarea diferente. Puede hacer más experimentos empíricos optimizando los hiperparámetros con algunos optimizadores como hyperas (maxpumperla / hyperas) y visualizar el impacto de varios parámetros en sus resultados.

La razón por la cual los modelos de aprendizaje de transferencia no funcionan tan bien como su CNN menos profunda personalizada probablemente se deba a la naturaleza del problema. Depende también de los datos de entrenamiento originales que se usaron en las redes pre-entrenadas.

El aprendizaje por transferencia funciona bien si los problemas están relacionados; de lo contrario, es mejor comenzar desde cero.

Otro problema es que intente ejecutar la fase de ajuste fino durante mucho más tiempo, es decir, más épocas para los modelos de aprendizaje de transferencia. De esa manera, tal vez el aprendizaje de transferencia podría encontrar un mejor punto óptimo.

Espero que esto ayude.