¿Es el número de nodos en una capa oculta más que la capa de entrada? ¿Es esto un problema? ¿Qué se puede aprender en tales redes neuronales?

El número de nodos en una capa oculta se puede decidir arbitrariamente. No existe una regla rígida para fijar un número para unidades ocultas.

Respuesta principal a su pregunta: puede ser

Puede ser más, menos o incluso igual al tamaño de la capa de entrada. Por lo general, en las redes neuronales tratamos de apoyar la idea “general” de los datos. Por ejemplo, para el problema de reconocimiento de dígitos, esperaríamos que nuestra capa oculta comprenda la noción de 8 a través de curvas o bordes presentes en la entrada. Para tal propósito de generalización, intentamos reducir el número de unidades ocultas en relación con el tamaño de entrada. Pero no hay nadie que te impida usar más unidades ocultas (probablemente el cálculo sería un problema).

Para las redes que realizan mapeo de alta dimensión (más cantidad de unidades ocultas), tienden a ajustarse demasiado y subestimarse (es necesario entrenarlas más tiempo). Por lo general, las unidades ocultas de la primera capa capturan información de borde de la imagen.

Avíseme si obtiene mejores resultados trabajando de esta manera.

Aclamaciones,

Suriya

Aprendizaje automáticoAprendizaje profundoInteligencia ArtificialRedes neuronales artificiales

Cómo obtener una posición de RA en el Grupo de Aprendizaje Automático de Microsoft Research India

¿Cómo se glorifican los métodos del kernel en la coincidencia de plantillas?

¿En qué áreas de la banca / finanzas se utiliza el aprendizaje automático?

¿Cuáles son algunas formas de evitar la maldición de la dimensionalidad?

¿El aprendizaje no supervisado es la clave de la inteligencia artificial general?

¿Dónde debo unirme para la capacitación en ciencia de datos?

El número de nodos en una capa oculta puede ser mayor o menor que el número de nodos en la capa de entrada debajo de él.

Por ejemplo:

El ejemplo MNIST para expertos de Tensorflow tiene 32 veces más nodos en la capa 1. Mucho más grande.
La capa 1 en una pila de autocodificador de eliminación de ruido puede tener la mitad de nodos que la capa de entrada.

Entonces, el número de nodos no es una gran medida de lo problemática que es una red profunda. Una noción de información-contenido o hipótesis-espacio o total-sorpresa o independencia de componentes podría ser una mejor medida.

Para una red de punto en el tiempo (por ejemplo, reconocer el contenido de la imagen), esperaría menos funciones en las capas superiores. Los ConvNets, incluso con toneladas de nodos, funcionan bien debido al atado de peso: no pueden hacer un sobreajuste loco porque lo que una capa puede aprender es la ubicación invariable. Las capas ocultas estocásticas, de activación binaria o ganadoras de todo también pueden tener un alto número de nodos sin problemas porque codifican menos información total que los nodos de entrada continua.

María

Depende.

Matemáticamente, una red funcionará bien con más nodos en la capa oculta que la capa de salida.

Sin embargo, debido al sobreajuste, a menudo desea menos pesos en su capa oculta que las capas de entrada / anteriores, ya que ayuda a promover la generalización. Hay, como con cualquier otra cosa, más que algunas excepciones notables a esta regla en las que desea aumentar el número de pesos.

Una regla general que he visto circular en foros, que es un buen punto de partida para muchos problemas, es el límite superior para la cantidad de neuronas ocultas según lo dado por:

[matemáticas] N_h = \ frac {N_s} {a \ cdot (N_i + N_0)} [/ matemáticas]

[matemáticas] N_h [/ matemáticas] = número de neuronas ocultas.
[matemáticas] N_i [/ matemáticas] = número de neuronas de entrada.
[matemáticas] N_o [/ matemáticas] = número de neuronas de salida.
[matemáticas] N_s [/ matemáticas] = número de muestras en el conjunto de datos de entrenamiento.
[matemática] α [/ matemática] = un factor de escala arbitrario generalmente 2-10.

Kasper Fredenslund

More Interesting

¿Qué tan perspicaz es el artículo de arXiV: [1504.00641] Una teoría probabilística del aprendizaje profundo? ¿Extiende nuestra comprensión del aprendizaje profundo y presenta un marco unificador?

¿Cómo puede alguien que es muy débil en matemáticas aprender el aprendizaje automático y el aprendizaje profundo?

¿Cuál es mejor, el aprendizaje automático de Stanford en Coursera o un nanogrado Udacity?

¿Cómo se usa SVM y cómo se implementa mejor?

¿Cómo analizan los algoritmos de aprendizaje automático y los algoritmos basados en léxico las palabras coloquiales en un análisis de sentimientos de Twitter?

¿Cuántas horas le tomaría a un analista de datos profesional revisar los datos simples de la compañía y construir un modelo para predecir el desgaste?

¿Hay algún profesor actual en Asia que tenga un historial con Bayesian no paramétrico, tanto en teoría como en aplicación?

¿Se pueden anotar videos usando el aprendizaje automático?

¿Qué sitio web ofrece 'filtrado colaborativo como servicio'?

¿Qué tipo de empresas necesitan / necesitarán ingenieros de Machine Learning?