¿Qué sucede si hacemos que cada unidad de filtro o núcleo en una capa CNN dentro de una red neuronal profunda tenga diferentes tamaños de ventana pero el mismo número de parámetros de peso (lo que resulta en granulado grueso)? ¿Podría conducir a un efecto contextual?

Sí, es más como un enfoque de escala múltiple por el cual los tamaños de ventana más pequeños procesan un contexto más pequeño (escala más pequeña) en comparación con los tamaños de ventana más grandes que pueden capturar un contexto mucho más grande (escala más grande).

O, más precisamente, si vincula los pesos entre un determinado grupo de núcleos con tamaños de ventana variables (pero igual conteo de parámetros), entonces es equivalente a hacer una convolución en escala, recuerde, una convolución típica se realiza solo en el plano xy (espacial). Es decir, el modelo buscará características no solo en términos de ubicación, como se hace en las redes neuronales convolucionales típicas (CNN), sino también en términos de escala.

Lo que eso significa es que puede obtener una traducción + escala equivalente * CNN. Las redes neuronales convolucionales típicas son solo equivalentes de traducción, la adición de núcleos multiescala puede mejorar la forma en que el modelo trata con las características y objetos de escala.

* Algunos dicen invariante, pero el término correcto aquí es equivalente ya que el mapa de respuesta reflejará la escala y la ubicación de una característica / objeto en particular.

Eso puede ser beneficioso porque entonces, el aumento de datos con diferentes versiones escaladas de objetos de entrenamiento puede ser innecesario para tal modelo. Dado que ahora tiene una función incorporada, las características / objetos del mundo pueden variar en posición y en escala.

Espero que esto ayude.

Suena como una pregunta para Donald Trump, quien señala que tiene la mejor mente de la historia.

More Interesting

Cómo optimizar el ANFIS de MATLAB usando el método de descenso de gradiente conjugado

¿Cómo afectará el aprendizaje automático al mundo para 2030?

¿Qué significa esto exactamente: 'Hay dos estrategias principales para el reconocimiento facial: comparación de características y coincidencia de plantillas'?

¿Es posible darle a una computadora millones de imágenes de varios objetos, y se da cuenta de que hay cosas como animales, platos de cocina, montañas, etc. sin que nosotros lo digamos, y cómo se hace esto exactamente?

¿Cuáles son las suposiciones hechas por los modelos ocultos de Markov?

¿Existe una definición matemática para una máquina de vectores de soporte?

¿Por qué las RVM no son tan populares como las SVM?

Cómo calcular la huella de memoria de un modelo particular de aprendizaje profundo

¿Los departamentos de policía en los EE. UU. Usan el aprendizaje automático para encontrar patrones en los datos delictivos?

Veo que la mayoría de las API de Machine Learning están en Python, algunas usan C o C ++ bajo el capó. ¿Por qué los desarrolladores de framework no exponen las API de C ++?

¿Cuáles son algunas buenas ideas de proyectos para aplicaciones web de negocios que utilizan análisis de sentimientos?

¿Todas las funciones de pérdida sufren el problema del gradiente de fuga en las redes neuronales?

¿Debería estudiar aprendizaje automático, aprendizaje profundo o aprendizaje de refuerzo?

¿Cuál es la diferencia entre la regularización y el sesgo inductivo en el aprendizaje automático?

Durante la validación cruzada k-fold, ¿cuáles son algunas soluciones posibles cuando la varianza de las estimaciones de error de prueba es muy alta?