Respuesta corta: la invariancia [1] junto con el algoritmo de optimización (como el Descenso de gradiente estocástico [2]) impide que dos filtros aprendan la misma característica.
Respuesta larga: la invariancia significa que la CNN produce exactamente la misma respuesta, independientemente de cómo se cambia, gira, escala o ilumina su entrada. Por ejemplo, el mismo conjunto de filtros CNN bien entrenados encontrará un perro pequeño mirando hacia arriba con poca luz a un perro grande mirando hacia abajo en un lugar bien iluminado.
El algoritmo de optimización funciona de forma iterativa para reducir la pérdida [3] (derivada de la entropía cruzada [4]) utilizando pesos y sesgos de los filtros. En una red neuronal de convolución bien definida, el algoritmo encuentra que la pérdida no disminuye si dos filtros tienen pesos y sesgos similares, por lo que eventualmente cambiará uno de los filtros (pesos y sesgos) para reducir la pérdida y así aprender un nuevo característica.
- ¿Cómo determinar el refuerzo lateral en la pila? ¿Cuáles son las especificaciones simplificadas?
- ¿Cómo se puede aplicar el aprendizaje profundo a la clasificación de palabras?
- ¿Por qué los lars y glmnet dan diferentes soluciones? ¿Cuál es mejor?
- ¿Cuál es el futuro del aprendizaje por refuerzo?
- ¿Cómo puede un estado en el aprendizaje por refuerzo tener dos valores? Por ejemplo, como en el blackjack donde el as es 1 u 11.
Notas al pie
[1] Convolución – Wikipedia
[2] Descenso de gradiente estocástico – Wikipedia
[3] Red neuronal convolucional – Wikipedia
[4] Entropía cruzada – Wikipedia