¿Qué significa extraer características de alguna capa de una red neuronal convolucional?

Cada unidad de una red neuronal calcula (o “extrae”) una característica (distintiva), que es alguna función de la entrada (o parte de la entrada) que ayuda a realizar la tarea para la cual el NN está capacitado, por ejemplo, para discriminar entre clases Los bordes y las esquinas son características típicas de bajo nivel aprendidas por la primera capa de un ConvNet entrenado para la clasificación de imágenes. Las características de alto nivel podrían ser partes de objetos, por ejemplo, ruedas si una de las clases es “automóvil”, o caras si una de las clases es “humana”.

Un mapa de características es el resultado de calcular la misma característica local (es decir, una característica que depende solo de una región limitada de la imagen) en diferentes posiciones, cubriendo toda la extensión espacial de la imagen. Estas características son cada vez menos locales y menos sensibles a variaciones irrelevantes en la imagen de entrada (como la traducción y la escala del objeto principal, el punto de vista, la iluminación, etc.) a medida que avanza en la red. Puede ver las características calculadas por la última capa oculta como una nueva representación de alto nivel de la imagen que permite que la capa de salida separe fácilmente las clases (las clases se vuelven aproximadamente linealmente separables).

Puede ser útil guardar estas nuevas representaciones en el disco para realizar más experimentos. Por ejemplo, puede probar diferentes clasificadores en ellos (por ejemplo, un SVM) y ver si obtiene una mejor precisión que el clasificador softmax incorporado en ConvNet.

Piense en ello como un perfil (como en el perfil del FBI) ​​o una aplicación visual en mosaico. O podría ser un sistema en un minorista que construye un modelo de varios consumidores.

La idea central es muestrear rápidamente submapas (capas) de un dominio. El riesgo es sobreajustar (como siempre).

Ahora tiene subgrupos de datos donde los mosaicos son comparables. Estos se pueden “agrupar”. Cuando agrupa datos, pierde las relaciones inmediatas de los “mosaicos” de alto nivel a favor de los análisis a nivel de grupo.

Esto permite que se diga algo sobre todos los subelementos (p. Ej., Los movimientos geográficos de terroristas / compradores / imágenes / etc. Conocidos) o sobre individuos específicos, que esta persona es tan adecuada para el perfil general en un rango de grupos agrupados datos.

En cuanto a qué significa guardar en el disco … No tengo idea.

Cada capa de una red neuronal de convolución extrae características. Entonces, para usar una capa como un extractor de características, debe interceptar y guardar los mapas de características. Lo que haría con las características extraídas es su elección, pero dado que es básicamente humano ilegible, generalmente lo conectaría a un algoritmo ML de extracción de características como una capa FC o una SVM con el propósito de transferir el aprendizaje.

En la etapa de extracción de características, normalmente aplicamos alguna transformación (es decir, transformación de Fourier, filtro de convolución, filtro de Gabor) en la imagen de entrada y eso nos da algún resultado, por ejemplo, puede ser en forma de matriz o vector. Este vector lo llamamos como vector de características.

En el caso de la red neuronal de convolución, aplicamos un núcleo de convolución en la imagen de entrada para obtener el vector de características.

More Interesting

¿Algún investigador utiliza ReLU en un modelo de aprendizaje no profundo? ¿ReLU es solo para aprendizaje profundo?

¿Cuáles son algunos temas inusuales en el aprendizaje automático que se pueden explorar como un proyecto de un mes?

Para las selecciones de características, ¿cuál deberíamos preferir, PCA (basado en la matriz de correlación) para reducir la dimensión o Xgboost (basado en el árbol)?

¿Cómo aplicamos el algoritmo de agrupamiento k-means para datos mixtos numéricos y categóricos?

¿Qué herramientas matemáticas puedes usar para analizar el comportamiento de las redes neuronales en el tiempo?

¿Qué harás cuando entrenes a tu modelo?

¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?

¿Por qué los pesos hacia adelante y hacia atrás son iguales en la máquina de Boltzmann restringida?

Si quiero implementar un filtro de spam, ¿cuál es el algoritmo más simple y eficiente que debo usar?

¿El aprendizaje automático conducirá a la mercantilización del conocimiento?

Cómo modelar el problema de un número de generación matka usando machine learning

¿Qué es el algoritmo de descenso de gradiente?

¿Es inevitable la multicolinealidad en los datos experimentales? Si no, ¿en qué condiciones podemos esperar multicolinealidad?

¿De qué manera la Academia se está quedando atrás en la capacitación de Data Science?

¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?