Para resumir, en una capa CNN, el truco principal es que, en lugar de aprender parámetros para la convolución en cada posición, los parámetros se comparten en todas las posiciones. Esta es una acción muy intuitiva para tomar.
Por ejemplo, cuando mira una imagen e intenta aprender diferentes convoluciones que detectan diferentes propiedades de la imagen (estructura de bordes, formas, etc.) en áreas pequeñas de la imagen, tiene mucho sentido tratar de aprenderla de todas las áreas pequeñas en el imagen en lugar de para cada posición específica. Esto reduce sustancialmente el número de pesos, permite obtener más datos para aprender (ya que hay muchas áreas pequeñas para aprender en cada imagen) y hace que las funciones que se aprenden sean independientes de la posición en la imagen. Eso es mucho que ganar con un truco.
Entonces, si entiendo su pregunta correctamente, diría que significa compartir los pesos sobre todas las posiciones (por supuesto, normalmente aprenderán muchas de esas neuronas juntas, pero esa es otra historia).
- ¿Cuáles son las mejores startups que usan ciencia de datos y aprendizaje automático para el bien social?
- ¿Necesito normalizar mis vectores de características antes de usar Deep Learning?
- ¿Por qué la búsqueda de imágenes de Google es tan rápida?
- ¿Qué es el mecanizado en caliente?
- ¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?