Cómo justificar el rendimiento de un modelo de aprendizaje profundo personalizado (CNN)

¿Puede ser al revés? ¿Cómo justifica el uso de la transferencia de aprendizaje en lugar de usar un modelo más simple que aprende sus propias características?

El aprendizaje por transferencia todavía tiene sus limitaciones. Los modelos pre-entrenados como VGG / ResNet producen características muy útiles la mayor parte del tiempo, pero ¿qué pasa si su dominio está tan lejos de los datos en ImageNet, que la arquitectura y los pesos de VGG son un impedimento? ¿Puede ser una exageración? Porque si es así, llevará mucho tiempo volver a entrenar todo y obtener un resultado útil, haciendo que los esfuerzos para realizar el aprendizaje de transferencia sean inútiles.

Como ejemplo de la vida real, considere el problema de segmentación celular. ¿Cómo pueden contribuir las características aprendidas de un conjunto de datos de animales / aviones / personas / edificios a la detección de mitocondrias?

La otra gran diferencia es la formulación del problema, VGG / ResNet fueron diseñados para la clasificación multiclase, lo que significa que aprender mucha información irrelevante. Se puede resolver ajustando un VGG preentrenado aumentado con algunas capas aumentadas con unas pocas capas para la clasificación binaria, cambiando así la información “intra-red” de “perro-vs-gato-vs-rana-vs-casa” a “perro-no-perro”. El otro lado de dicha práctica es que la cantidad de pesos almacenados internamente también puede ser demasiado, lo que requerirá una regularización adicional … ¿por qué molestarse, cuando puede tomar una red más pequeña?

Probablemente sea uno de esos casos de “menos es más”, por lo que, con respecto a la pregunta del revisor, un análisis un poco más profundo de la tarea es muy útil.

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialPreguntas prácticasRedes neuronales artificiales

¿Qué es una explicación intuitiva de los modelos de proceso gaussianos?

Conciencia del contexto: ¿Qué es el descubrimiento de noticias anticipatorio?

Análisis de sentimientos: ¿cuál es una manera simple de identificar palabras de sentimientos en una oración?

Estoy muy interesado en el aprendizaje automático y quiero trabajar en algunos proyectos de código abierto. ¿Qué proyectos puedes sugerir?

¿Qué campo es el mejor, big data o machine learning?

¿Qué métricas debo usar para evaluar un modelo generativo cuantitativamente y qué tan confiables son?

Lo que puedo ver de su pregunta es: debe justificar el rendimiento del modelo de aprendizaje profundo personalizado con respecto a los modelos de aprendizaje de transferencia como AlexNet, Vgg16; 19, ResNet.

Es sorprendente ver que está obteniendo una mayor precisión con menos capas de convolución, pero la pregunta es “¿qué problema está tratando de resolver utilizando el Modelo de aprendizaje profundo personalizado?”. Compruebe si AlexNet, Vgg y ResNet se han utilizado para resolver problemas similares o iguales. En caso afirmativo, la comparación de rendimiento es trivial; de lo contrario, debe usar AlexNet, Vgg y ResNet en su problema y registrar su precisión. Ahora, simplemente compare la precisión de AlexNet, Vgg, ResNet y su modelo de aprendizaje profundo personalizado.

Además de esto, le sugiero que realice una serie de experimentos enumerados en los documentos de AlexNet, Vgg y ResNet para que tenga un amplio escenario de comparación.

Lo que sé es que el problema de clasificación binaria puede resolverse mediante una red neuronal convolucional de capa única. Cuán diferente es su modelo de esta red también es una preocupación.

Se puede dar una respuesta más específica, si tenemos una idea sobre el problema que está tratando de resolver.

Espero eso ayude !!

Shiva

Eso es obvio si su tarea es diferente a los modelos de aprendizaje de transferencia; porque su CNN personalizada le está dando un modelo específico de la tarea después del entrenamiento, mientras que los modelos de aprendizaje de transferencia supuestamente están entrenados en una tarea diferente. Puede hacer más experimentos empíricos optimizando los hiperparámetros con algunos optimizadores como hyperas (maxpumperla / hyperas) y visualizar el impacto de varios parámetros en sus resultados.

Shiva

La razón por la cual los modelos de aprendizaje de transferencia no funcionan tan bien como su CNN menos profunda personalizada probablemente se deba a la naturaleza del problema. Depende también de los datos de entrenamiento originales que se usaron en las redes pre-entrenadas.

El aprendizaje por transferencia funciona bien si los problemas están relacionados; de lo contrario, es mejor comenzar desde cero.

Otro problema es que intente ejecutar la fase de ajuste fino durante mucho más tiempo, es decir, más épocas para los modelos de aprendizaje de transferencia. De esa manera, tal vez el aprendizaje de transferencia podría encontrar un mejor punto óptimo.

Espero que esto ayude.

Shiva

More Interesting

¿Cómo puedo medir la precisión de un sistema de recomendación?

¿Cuál es la diferencia de aprender características latentes usando SVD y usando vectores incrustados en una red profunda?

¿Cómo aprenden los algoritmos de aprendizaje automático de los datos?

¿Cuáles son los métodos actuales o estándar de combinación de datos estructurados y no estructurados en redes neuronales convolucionales?

Si se le da una opción entre el aprendizaje automático y el Internet de las cosas como una opción, ¿cuál es la mejor para elegir, teniendo en cuenta el alcance y el futuro?

Cómo realizar el aprendizaje de refuerzo en una red neuronal de alimentación oculta de capas múltiples

¿Cuáles serían los proyectos / servicios más interesantes en el cuidado de la salud que involucren alta tecnología como dispositivos móviles, big data y data science? Por ejemplo, Ginger.io.

Cómo crear un conjunto de datos a partir de imágenes

¿Es posible usar la red neuronal para predecir múltiples valores respetando ciertas condiciones?