¿Qué significa ser modelo pre-entrenado en CNN? ¿Ya están entrenados en esas clases particulares?

Hola ismail

De hecho, pre-entrenado en sí mismo significa un modelo que ya ha sido entrenado en algún tipo de conjunto de datos con diferente número de clases. En el aprendizaje profundo hay un término llamado “aprendizaje de transferencia”, ¿qué significa? Bueno, este concepto dice que los modelos CNN tienen esta capacidad de aprender algún tipo de información de otros conjuntos de datos. En la práctica, muy pocas personas entrenan a toda una Red Convolucional desde cero (con inicialización aleatoria), porque es relativamente raro tener un conjunto de datos de tamaño suficiente. En cambio, es común entrenar previamente un modelo CNN en un conjunto de datos muy grande (por ejemplo, ImageNet, que contiene 1,2 millones de imágenes con 1000 categorías), y luego usar esto como inicialización o como extractor de características fijas para la tarea de interés. . El enfoque principal de Transfer Learning es

Afinando el modelo . . Es posible ajustar todas las capas de ConvNet, o es posible mantener algunas de las capas anteriores fijas (debido a problemas de sobreajuste) y solo ajustar una parte de la red de nivel superior. Esto está motivado por la observación de que las características anteriores de una ConvNet contienen características más genéricas (p. Ej., Detectores de bordes o detectores de manchas de color) que deberían ser útiles para muchas tareas, pero las capas posteriores de la ConvNet se vuelven progresivamente más específicas a los detalles de las clases. contenido en el conjunto de datos original. En el caso de ImageNet, por ejemplo, que contiene muchas razas de perros, una parte significativa del poder de representación de ConvNet se puede dedicar a características que son específicas para diferenciar entre razas de perros.

Para obtener más detalles, lea el tutorial para aprendizaje profundo de Stanford:

CS231n Redes neuronales convolucionales para reconocimiento visual

AprendizajeAprendizaje profundoautomáticoCapacitaciónReconocimiento de patronesvisión artificial

Related Content

¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

Cómo aprender un pozo bayesiano no paramétrico

¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?

¿En qué dominios encuentra aplicación la tecnología de procesamiento de eventos complejos (CEP)?

¿Cuál sería el impacto cuando los terroristas decidan atacar el cableado de Internet que conecta a Estados Unidos con el resto del mundo?

¿Cómo difiere la ciencia de datos en el sector público del sector privado? ¿Qué servicios del sector público podrían beneficiarse de la ciencia de datos?

Una CNN que ha sido entrenada en un problema relacionado a gran escala como ImageNet puede usarse en otras tareas de reconocimiento visual sin la necesidad de entrenar las primeras capas. Esas capas fijas son detectores de características fijas.

Las capas superiores se pueden ajustar para que coincida con el problema actual en cuestión, esto se denomina aprendizaje de transferencia porque el sistema está utilizando una CNN que se entrenó en un problema diferente pero correlacionado. Esto normalmente se hace para acelerar el aprendizaje y reducir la necesidad de conjuntos de datos de entrenamiento muy grandes.

Mientras transfiera el aprendizaje en senarios relacionados, la CNN se adaptará muy bien. Esto se debe a que en el reconocimiento visual u otros estímulos naturales las señales son compositivas, es decir, están formadas por señales primitivas o básicas. Las primeras capas de cualquier convNet aprenderán casi las mismas características “básicas” como las características de borde, color o degradado para las tareas de reconocimiento visual.

Solo las características de nivel superior tienden a ser específicas de la clase, es por eso que al usar una red pre-entrenada es importante volver a entrenar algunas de las capas superiores o, en algunos casos, toda la CNN puede repararse y, por lo tanto, puede actuar como un detector de características para cualquier clasificador que se agregue al backend.

Espero que esto ayude.

Chomba Bupe

More Interesting

¿Cuánto tiempo hasta que tengamos aviones autónomos, particularmente aviones de carga grandes y aviones de pasajeros?

Aprendizaje profundo: ¿Una versión suave de unidades lineales rectificadas funciona mejor o peor que una no lineal?

Sistemas de bases de datos: ¿Qué formatos de datos se utilizan para almacenar series de tiempo?

Cómo combinar salidas del sistema de recomendación (matriz de elementos de usuario) a través de un conjunto

¿Cómo puedo usar Gensim LDA para la clasificación binaria?

¿Cómo deberíamos acelerar el procesamiento de datos del lenguaje R?

¿Cuáles son las relaciones entre el aprendizaje de representación y los modelos generativos en el campo de aprendizaje profundo?

¿Cómo puedo comenzar el análisis de datos en un gran conjunto de datos?

¿Qué estrategia usaste para resolver el juego 2048? ¿Por qué?

Cómo elegir el número de árboles en el aprendizaje automático

¿Cuáles son algunos documentos académicos de aprendizaje automático notables / influyentes en los últimos 5 años?

¿Cambridge o Stanford / Berkeley son mejores en aprendizaje automático?

¿Es posible crear un filtro adaptativo usando una red neuronal para que después del entrenamiento pueda filtrar la señal ruidosa y dar la salida deseada?

¿Cuándo se lanzará sklearn 0.18?

¿Por qué alguien debería aplicar métodos de aprendizaje automático en su investigación?

Web Analytics