¿Cuáles son algunas de las limitaciones o inconvenientes de las redes neuronales convolucionales?

No codifican la posición y orientación del objeto en sus predicciones.

Pierden por completo todos sus datos internos sobre la pose y la orientación del objeto y dirigen toda la información a las mismas neuronas que pueden no ser capaces de manejar este tipo de información.

Una CNN hace predicciones mirando una imagen y luego verificando si ciertos componentes están presentes en esa imagen o no. Si lo son, entonces clasifica esa imagen en consecuencia.

En una CNN, todos los detalles de bajo nivel se envían a todas las neuronas de nivel superior. Estas neuronas luego realizan convoluciones adicionales para verificar si ciertas características están presentes. Esto se hace caminando el campo receptivo y luego replicando el conocimiento en todas las neuronas diferentes

Según el profesor Hinton, si una neurona de nivel inferior ha identificado un oído, entonces tiene sentido enviar esta información a una neurona de nivel superior que se ocupa de identificar caras y no a una neurona que identifica sillas. Si la neurona facial de nivel superior obtiene mucha información que contiene tanto la posición como el grado de certeza de las neuronas de nivel inferior de la presencia de una nariz, dos ojos y un oído, entonces la neurona facial puede identificarla como una cara.

Su solución es tener cápsulas, o un grupo de neuronas, en capas inferiores para identificar ciertos patrones. Estas cápsulas generarían un vector de alta dimensión que contiene información sobre la probabilidad de la posición de un patrón y su pose. Estos valores serían luego alimentados a las cápsulas de nivel superior que toman múltiples entradas de muchas cápsulas de nivel inferior

  • En Machine Learning. Una red neuronal convolucional es una clase de redes neuronales artificiales profundas y avanzadas que se han aplicado con éxito al análisis de imágenes visuales. Una red neuronal convolucional tiene algunos inconvenientes, algunos se enumeran a continuación
  • El ajuste de hiperparamter no es trivial
  • Necesita un gran conjunto de datos
  • La escala de los pesos de una red (y de las actualizaciones de peso) es muy importante para el rendimiento. Cuando las características son del mismo tipo (píxeles, recuento de palabras, etc.), esto no es un problema. Sin embargo, cuando las características son heterogéneas, como en muchos conjuntos de datos de Kaggle, sus pesos y actualizaciones estarán en diferentes escalas (por lo que debe estandarizar sus entradas de alguna manera).
  • económico
  • Una convolución es una operación significativamente más lenta que, por ejemplo, maxpool, tanto hacia adelante como hacia atrás. Si la red es bastante profunda, cada paso de entrenamiento tomará mucho más tiempo.

Para obtener más información: BEPEC | ¿Por qué ciencia de datos? Bangalore

CNN no es invariable para la rotación y la escala. Sin embargo, con la introducción de [1506.02025] Redes de transformadores espaciales, el problema de la invariancia de rotación se resuelve en buena medida. He realizado una amplia experimentación con transformadores espaciales. Funciona bien para imágenes de gran dimensión. Sin embargo, para imágenes de pequeña dimensión no funciona mejor que una CNN.

Además, si un transformador espacial se coloca en capas posteriores, tiende a funcionar mejor que colocarlo en las capas iniciales. En varios conjuntos de datos con los que trabajé, una red cuidadosamente diseñada con múltiples transformadores espaciales restringidos para rotar los mapas de características proporciona buenos aumentos de precisión.

algunas desventajas:

-Alto costo computacional.

– Si no tienes una buena GPU, son bastante lentos para entrenar (para tareas complejas).

-Sueven necesitar muchos datos de entrenamiento.