¿Por qué las arquitecturas profundas aprenden representaciones de características cada vez más altas?

La aparición de una jerarquía de características es el resultado de la forma en que se presentan las CNN. No es una coincidencia.

  1. Casi por definición, los conceptos de nivel superior se manifiestan con una mayor resolución espacial (por ejemplo, en el caso de las imágenes) o temporal (en el caso del habla). No espera identificar una cara en un parche de 3 × 3 píxeles, a lo sumo puede obtener un borde orientado arbitrariamente. A medida que profundiza en las capas de una CNN, aumenta el campo receptivo de una sola neurona. Una neurona más profunda está “viendo” un área más grande de la imagen de entrada o una sección más grande de una señal de voz.
  2. Además, más o menos por definición, un concepto de nivel superior es uno que se define por encima de los conceptos de nivel inferior. Las letras se combinan para formar palabras, que se combinan para formar frases, que se combinan para formar oraciones. Las paredes se combinan para formar habitaciones, que se combinan para formar planos de planta, que se combinan para formar edificios, etc. Se obtiene una curva elíptica cuando combina una cadena de bordes de orientaciones que varían suavemente; y luego algunas curvas de este tipo podrían combinarse para darle un “ojo” o una “nariz”, y pocas de esas “partes” podrían combinarse para darle una cara. Nuevamente, los CNN están diseñados por diseño de tal manera que la capa kth activa las capas th (k-1). Por lo tanto, la aparición de tales jerarquías de características no es accidental.

More Interesting

¿Qué tan difícil es aprender el aprendizaje automático y el aprendizaje profundo si tienes un trabajo diario?

¿Qué significa "las redes neuronales profundas son covariantes para la traducción"?

Para las selecciones de características, ¿cuál deberíamos preferir, PCA (basado en la matriz de correlación) para reducir la dimensión o Xgboost (basado en el árbol)?

¿Son las redes neuronales modelos paramétricos o no paramétricos?

¿Qué tan difícil sería implementar el aprendizaje por refuerzo para un juego de mesa?

¿Las herramientas como BigML o Google Prediction API dejarán a los expertos en aprendizaje automático fuera del trabajo?

¿Cuáles son algunos buenos documentos sobre la extracción de sinónimos de los registros de consultas?

¿Cómo puedo usar el modelo oculto de Markov sin supervisión para detectar y corregir palabras dobles?

¿Cuáles son las diferencias entre los métodos de análisis de componentes principales?

Si IBM introduce el aprendizaje automático en z / OS, ¿qué significará eso para un desarrollador de mainframe?

¿Se puede resolver el problema de cauvery utilizando algoritmos de aprendizaje automático?

¿En qué tipos de problemas de regresión son comparables las redes neuronales, las máquinas de vectores de soporte, los bosques aleatorios y las redes neuronales profundas? ¿La superioridad de los métodos depende del tamaño del entrenamiento?

¿Cuál es la diferencia entre la regularización y el sesgo inductivo en el aprendizaje automático?

¿Es posible usar la red neuronal para predecir múltiples valores respetando ciertas condiciones?

¿Cuáles son algunas áreas de investigación en la intersección del aprendizaje automático y las criptomonedas?