¿Los tamaños de kernel de capa maxpooling en CNN son generalmente más pequeños que los tamaños de kernel de capa convolucional? ¿Por qué?

La capa de agrupación máxima reduce la entrada al mantener la activación máxima en una ventana determinada (generalmente una ventana de 2 × 2 con zancada 2). Si el núcleo de la capa de agrupación máxima es demasiado alto, está arrojando demasiada información valiosa.

Por otro lado, el tamaño del núcleo CNN suele ser mayor, por lo que se ve en una ventana más grande en la imagen. Intente mirar una imagen en ventanas 3 × 3, por lo general no hay suficiente información para sacar conclusiones de lo que hay en la imagen, solo algunos píxeles de colores aleatorios. Pero si comienza a mirar la imagen en una ventana más grande, puede comenzar a ver información sensible: un rostro humano, el volante de un automóvil, una puerta, …

Necesita tamaños de kernel más grandes en CNN para extraer características sensibles de la imagen y kernels de agrupación máxima pequeña para que no deseche información importante.

Related Content

¿Lloyd Pye aborda el hecho de que una civilización avanzada podría extraer su propio oro sin esclavos utilizando Ai y equipos industriales?

Cómo modelar este problema como un problema de aprendizaje automático

Cómo usar el aprendizaje automático

¿Es posible construir una inteligencia artificial que aumente su inteligencia, como la máquina Zeno?

Cómo entender 'las redes neuronales están capacitadas para aprender la distribución de datos'

¿Tendrá algún derecho un robot autoconciente artificialmente inteligente?

Cómo aprender a usar computadoras / laptops y sus funcionalidades

Han pasado algunos años desde que trabajé con Neural Networks, por lo que esta pregunta me intrigó. Investigué un poco y aprendí un poco sobre esto … y creo que tengo una respuesta para usted.

Parece que la agrupación máxima implementa un muestreo descendente intencional en la entrada. Se minimiza una mayor cantidad de datos de entrada en una cuadrícula en un solo vector “máximo” para toda la cuadrícula.

Parece que no es “convolucional vs. agrupación máxima”: aplica el sondeo máximo a una CNN, o no, como parte del diseño de la red neuronal. Yo creo que.

De Conural Neural Networks (LeNet): “Max-pooling divide la imagen de entrada en un conjunto de rectángulos no superpuestos y, para cada subregión, genera el valor máximo”.

Su objetivo es ayudar a disminuir el volumen y la complejidad de los datos entrantes a una red neuronal convolucional.

Se deduce que si disminuye las dimensiones y la complejidad de la capa de entrada, eso disminuirá esos mismos aspectos y, como resultado, el tamaño de las capas intermedias ocultas y la capa de salida.

Paul Reiber

More Interesting

¿Podemos saber las cosas técnicas en un robot?

¿Es posible que la inteligencia artificial pueda construir una dimensión de bolsillo para enviar a todos los refugiados allí?

AI: ¿cómo podemos saber que el cerebro (nosotros) puede modelar su propia estructura lógica interna / principios?

¿Qué algoritmos de aprendizaje automático son prometedores además del aprendizaje profundo?

¿Cómo funciona la hipótesis para una red neuronal simple (MLP con activación logística, salida única) en forma simplificada?

¿Qué tan bien las redes neuronales reconocen imágenes incompletas (por ejemplo, una manzana que está parcialmente cortada)?

¿Cómo obtuvo Alpha Go los datos de entrenamiento de Go para su red neuronal profunda?

¿Qué hay de malo en establecer el comunismo después de que los robots toman todos los trabajos?

¿Necesito tener conocimientos especializados en inteligencia artificial para hacer un valor para la sociedad?

¿Qué tecnologías emergentes puedo obtener hoy en la planta baja? ¿Qué necesito aprender hoy para estar listo para el futuro?

¿Por qué ningún asistente personal de IA ha sido un éxito desbocado?

¿De dónde viene la idea de IA peligrosa?

¿Qué videojuego ha desarrollado el sistema de inteligencia artificial más avanzado?

En una red neuronal (sin saber si es específica para keras), ¿cuál es la diferencia entre el tamaño del lote y el entrenamiento del lote? ¿Cuándo necesitaría ambos?

¿Cuáles son exactamente los algoritmos de IA utilizados en Five Nights at Freddy's?

Web Analytics