¿Es la precisión proporcional al número de capas ocultas y las unidades de cada capa en la red neuronal?

Número de capas ocultas:

Teóricamente, una red neuronal con una sola capa oculta puede ajustarse a la mayoría de las funciones de hipótesis y rara vez surge la necesidad de buscar otra capa oculta (esto es posible seleccionando el número apropiado de neuronas para la capa oculta).

Sin embargo,
Una capa oculta puede aproximarse a cualquier función que contenga un mapeo continuo de un espacio finito a otro.

Dos capas ocultas pueden representar un límite de decisión arbitrario a una precisión arbitraria con funciones de activación racionales y pueden aproximar cualquier mapeo uniforme a cualquier precisión.

Ninguna capa oculta solo puede representar funciones separables linealmente.

Entonces, siguiendo lo anterior, se puede decir que la precisión mejora al aumentar el número de capas ocultas de 1 a 2 y de 0 a 1.

Como he mencionado antes, en la mayoría de los casos prácticos, no se requiere más de 1 capa oculta para una precisión realmente buena, por lo que no hay duda de ir a buscar más y más capas ocultas, ya que el algoritmo de propagación inversa será menos efectivo.

El error del conjunto de prueba se disparará cuando use más capas ocultas, aunque es posible que haya obtenido una precisión casi perfecta para los conjuntos de trenes .

La precisión siempre está casi asociada con el rendimiento de la arquitectura y el algoritmo NN en sus datos de prueba.

Entonces, tal vez la precisión aumente cuando aumente el número de capas ocultas de 1 a 2 o de 0 a 1. Pero un aumento adicional en las capas ocultas puede hacer que sucedan cosas malas y no se puede generalizar que la precisión aumentará proporcionalmente con el aumento en el número de capas ocultas

Número de neuronas en una capa:

Este es el verdadero problema. No sé mucho sobre la optimización del número de unidades (suponiendo que se decida ese número de capas ocultas).

Después de establecer una arquitectura de red neuronal casi óptima, uno puede aumentar aún más la precisión mediante el uso de una serie de algoritmos auxiliares. Uno de estos algoritmos que se enmarca en el tema de selección del número de unidades ocultas (en una capa) se llama Poda (de nodos). Funciona eliminando nodos redundantes con iteraciones.

Espero que esto haya ayudado.

Referencias
[1] Aprendizaje automático
[2] IEEE: http://www3.nd.edu/~huang/papers…
[3] http://www.faqs.org/faqs/ai-faq/…

He visto algunas buenas respuestas sobre redes neuronales poco profundas. Sin embargo, nadie parece haber discutido las CNN y otras variantes.

Las CNN, o redes neuronales convolucionales, son un enfoque para el aprendizaje profundo. Lo que esto significa es que su objetivo es construir una jerarquía de representaciones del mundo: las primeras capas representarán conceptos de bajo nivel como líneas y esquinas, mientras que las últimas capas representarán conceptos de nivel superior como automóviles y aviones. La profundidad de un CNN puede variar de unas pocas capas (4 o 5) a muchas más (25 capas no es raro).

Agregar una capa a una CNN le permite construir traducciones más simples entre niveles de abstracción. Muy a menudo ayuda, pero no debes hacerlo ingenuamente, no funcionará por sí solo. Experimente con sus hiperparámetros (tasa de aprendizaje, entre otros) cada vez que agregue una capa y vea si realmente aumenta su rendimiento.

Finalmente, deberías buscar ResNet. Un equipo de investigadores notó que agregar ingenuamente capas a una CNN no siempre mejoraba el rendimiento de sus pruebas, por lo que decidieron crear una arquitectura donde lo hizo. Su enfoque funciona muy bien: ¡han creado redes con hasta 1000 capas!

La respuesta es no. A medida que aumenta el número de capas ocultas, disminuye la efectividad de la propagación hacia atrás; Además, debe lidiar con un problema de sobreajuste, es decir, su red funcionará muy bien en el conjunto de datos de entrenamiento, pero no puede generalizarse a los nuevos datos que no ha visto y ofrece un rendimiento terrible en los nuevos datos.

Regularizar la red puede reducir el problema de sobreajuste. Para un problema en cuestión, puede probar un número diferente de capas ocultas y analizar su rendimiento en términos de error cuadrático medio para el conjunto de datos de entrenamiento y validación cruzada. Luego, seleccione la red que tenga menos MSE tanto en entrenamiento como en conjunto de validación cruzada.

No. Después de un cierto número de capas ocultas, el error de clasificación comienza a aumentar. Esto fue demostrado en ResNet por la investigación de Microsoft, donde continuaron aumentando las capas ocultas y después de cierto punto el error aumentó. Puede leer el documento en ResNet para obtener más detalles.

Piense en cada capa como una página en una novela de misterio, … en este mundo hay muchas opciones y opciones … aunque podría ser más fácil para algunos, y no para otros, ver lo que viene en la página siguiente antes de leerlo, adquiriendo así Nuevas posibilidades de elección y opción de las mismas, el MLNN no ha sido diseñado para “adivinar con precisión” lo que viene a continuación en un flujo de datos en tiempo real, solo puede ver lo que ha sucedido y poner peso en las palabras que aparecen a menudo, para reducir las opciones y opciones para elegir, a un objetivo aún no percibido.

More Interesting

Dado el número de heurísticas arbitrarias involucradas, ¿por qué deberíamos tener tanta fe en las redes neuronales profundas?

¿Cuál es una explicación intuitiva del método de optimización llamado Hessian-free Optimizer (HF) para redes neuronales?

¿Cuál es su enfoque para el diseño de redes neuronales convolucionales?

¿Cuál es la relación de la matriz de curvatura y el aprendizaje profundo?

¿El aprendizaje automático es el futuro del mundo de la programación?

Inferencia bayesiana: si tuviera que trazar un millar de correos electrónicos basados ​​en "spaminess" utilizando un algoritmo simple de Naive Bayes para establecer la probabilidad de "spaminess" para el eje x, ¿cuál debería ser mi eje y?

¿Cómo se usan los árboles BSP (partición de espacio binario) en los algoritmos de aprendizaje automático?

¿Por qué no reescalamos el vector de coeficiente de una regresión de lazo?

El mejor ajuste de línea se puede encontrar analíticamente por el método de mínimos cuadrados. ¿Podemos decir que la regresión lineal (mínimos cuadrados) tiene un optimizador?

¿Cuántas horas le tomaría a un analista de datos profesional revisar los datos simples de la compañía y construir un modelo para predecir el desgaste?

¿Es posible implementar la detección de fraude usando Mahout? ¿Cómo?

¿Cuál es la diferencia entre los datos de entrenamiento y los datos de prueba?

Cómo probar la ecuación en el documento de aprendizaje de refuerzo de búsqueda de políticas de Sutton

Dada una red de aprendizaje profundo, ¿se puede entrenar para enseñar (por ejemplo, resolviendo la secuencia óptima de ejemplos o lo que sea) otra red? Si es así, ¿se puede resolver este problema (enseñanza) utilizando técnicas de aprendizaje profundo?

¿Dónde puedo encontrar a alguien que me enseñe 1 a 1 sobre el aprendizaje automático?