¿Por qué es tan importante aprender las redes neuronales convolucionales?

La mayor ventaja de las redes neuronales convolucionales (y el aprendizaje profundo) es que pueden aprender las características apropiadas por sí mismas automáticamente.

Las características son importantes. Puede obtener una buena precisión de reconocimiento de objetos solo si tiene buenas características. En los primeros días, las personas tienen que diseñar características manualmente. Este paso se llama ingeniería de características. Diseñar buenas características es extremadamente difícil, entre ellas, las características más populares son las funciones SIFT y HOG.

Vamos a pensarlo. Los algoritmos de aprendizaje automático se utilizan para permitir que la máquina aprenda a asignar entidades a etiquetas automáticamente. ¿Podemos también dejar que la máquina aprenda características / representaciones apropiadas de imágenes en bruto? Este tema se llama aprendizaje de representación. Resulta que el aprendizaje profundo hace este trabajo bastante bien. Simplemente alimentamos imágenes en bruto en la CNN, y la CNN puede aprender cómo obtener las funciones correctas para la tarea.

También puede consultar las diapositivas escritas por mí.

Las redes convolucionales son importantes para aprender sobre tareas relacionadas con la imagen y la visión por computadora. Las redes convolucionales tienen la propiedad de ‘invariancia espacial’, lo que significa que aprenden a reconocer las características de la imagen en cualquier lugar de la imagen.

Por ejemplo, si desea reconocer un número (por ejemplo, en el conjunto de datos MNIST), desea reconocer los bordes que conforman el número en cualquier posición de la imagen, por lo que no depende del recorte utilizado.

Las redes convolucionales también usan el apilamiento de múltiples capas convolucionales, y luego una capa de agrupación para construir representaciones de características más grandes. Por ejemplo, las capas iniciales en el modelo pueden detectar bordes y curvas, otras capas las combinan para detectar formas geométricas, hasta que terminas detectando secciones de la imagen (por ejemplo, la nariz de un perro).

En primer lugar, no es importante para todos los campos. Pero es realmente importante cuando se trata de problemas, como las imágenes. CNN cambió fundamentalmente la forma en que la computadora interpreta imágenes o videos. Mientras tanto, arroja luces sobre otras áreas de aprendizaje automático, por ejemplo, combinando CNN y aprendizaje de refuerzo. En resumen, está trabajando en campos relacionados, vale la pena su tiempo para comprender, al menos, las ideas de alto nivel de CNN.

Bueno, capturan dos buenas ideas: invariancia espacial y estructura local. Además, se prestan bien a algoritmos paralelos y juegan muy bien con las operaciones de agrupación. Y dan buenos resultados en pruebas del mundo real. Por lo tanto, es probable que desee aprenderlos bien, de lo contrario, podría encontrarse reinventando la rueda, mal.

Dicho esto, parecen terriblemente ineficaces desde el punto de vista computacional, biológicamente inverosímiles, y quieren grandes cantidades de datos para mejorar. Pero son demasiado efectivos para descartarlos.