¿Cuándo necesitamos tener un mayor número de unidades ocultas que el número de unidades de entrada y viceversa?

Por lo general, para un problema dado, la red de aprendizaje profundo se ve así:

Pero para las tareas de reconocimiento visual, puede encontrarse con redes como esta:

¿Cuáles serán los casos de uso de aprendizaje automático más grandes de 2017?
¿Qué parámetros en los datos de entrenamiento / prueba deben considerarse para decidir la elección de un método de clasificación de aprendizaje automático (fuera de SVM, red neuronal, regresión logística, etc.)?
Además de experimentar emoción, ¿qué cosas puede hacer un niño humano que una computadora no puede hacer?
He asignado mis pesos (w) a un múltiple multinomial (o k-simplex), dividiendo cada componente de w por la suma de todos los componentes. ¿Cómo realizo la regularización (equivalente a l1 o l2) en el nuevo espacio multinomial múltiple (k-simplex)?
¿Cuál es el trabajo de investigación sobre aprendizaje automático más emocionante que Yoshua Bengio leyó en 2015?

Como regla general, un mayor número de unidades ocultas (capas) está bien si su dimensión de entrada es pequeña (como no miles o ilimitadas), pero preferiría ir con profundidad para contrarrestar con precisión el aumento de unidades ocultas. De acuerdo con el Teorema de aproximación universal (Teorema de aproximación universal – Wikipedia), su pérdida de entrenamiento debería disminuir si aumenta el número de nodos ocultos (debe ganar precisión, en cualquier grado que desee), hasta el punto de que se sobreajustará. Su red comenzará a “memorizar” los datos que usted alimenta, convirtiéndose en una gran tabla de búsqueda. No quieres eso. Desea que su modelo se generalice bien para datos invisibles, lo que significa que debe memorizar patrones y distribuciones y no datos de entrenamiento.

Entonces, el mejor enfoque es que después de sintonizar su red neuronal profunda, realice algunos ajustes de hiperparámetros, el número de unidades ocultas por capa (amplitud) y el número de capas (profundidad) deben ser algunos de los hiperparámetros que desea explorar automáticamente

Machine LearningnúmerosRedes neuronales recurrentes

Related Content

¿Cuál es el estándar de JMLR contra documentos en ICML y NIPS?

Cómo visualizar Kernel CNN con una profundidad mayor de 3

¿Se puede extraer información significativa de datos hash para el aprendizaje automático?

¿Puedo usar el aprendizaje profundo para aprender el aprendizaje profundo?

¿Dónde puedo ir para averiguar cómo extraer características de un documento de texto para usar en el entrenamiento de un clasificador?

¿Hay algún kit de herramientas LSTM disponible en MATLAB?

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

En casos generales, si tiene una unidad oculta más grande, su objetivo es encontrar dependencias más complejas. Cada neurona en una capa densa es una regresión [logística]. Cada neurona en la capa adicional tiene en cuenta el resultado de esa regresión. Por lo tanto, si bien están completamente conectados, puede capturar particiones más sofisticadas de su espacio de características, al igual que con árboles de decisión más profundos, por ejemplo.

Si su capa oculta es más pequeña que su capa de entrada, está asumiendo que su entrada es redundante y puede incrustarse en un subespacio con menor dimensionalidad.

Jean Moal

Por ejemplo, para un codificador automático, donde la capa oculta se ve obligada a ser escasa (por lo que destila características útiles y únicas).

Jean Moal

Considere un caso en el que tiene una red neuronal convolucional y la primera capa está aprendiendo algunas características básicas como los bordes. Puedes imaginar que la siguiente capa aprenderá combinaciones de tales estructuras básicas. Y podemos esperar que el número de combinaciones posibles de esas características básicas sea mucho mayor que el número de características básicas posibles. Entonces necesita una mayor cantidad de filtros en comparación con la primera capa.

Jean Moal

More Interesting

¿Qué tipo de trabajo, como ingeniero de software, me apoyaría más para convertirme en Ingeniero / Investigador de Aprendizaje Automático más adelante en mi carrera?

¿Es la informática de alto rendimiento un conocimiento esencial para el aprendizaje profundo dado que se trata de una gran red neuronal?

¿Qué es incrustar | espacio incrustado | ¿Incorporación de características en arquitecturas neurales profundas?

¿Qué es la precisión en el aprendizaje automático?

¿Cuál es la diferencia entre la estimación de máxima verosimilitud (ML) y máxima a Posteri (MAP)?

¿Cuál es la diferencia entre SVM y ANN?

Cómo modelar la siguiente situación probabilística

Durante el aprendizaje automático para la detección de objetos, ¿cómo puedo simular el efecto de la iluminación de diferentes días en mi conjunto de datos de entrenamiento?

¿Qué significa el siguiente pasaje de un documento de aprendizaje profundo sobre aprendizaje automático sobre representaciones distribuidas frente a representaciones no distribuidas?

¿Cuál es la ventaja de utilizar la función de probabilidad logarítmica frente a la función de probabilidad para la estimación de máxima probabilidad?

Cómo crear rápidamente un prototipo de una aplicación de reconocimiento de imágenes utilizando el aprendizaje automático y la red neuronal

Cómo demostrar que minimizar la suma residual de cuadrados es equivalente a maximizar la función de log-verosimilitud

¿Alguien tiene experiencia con las patentes de Digital Infuzion en aprendizaje automático y reducción de dimensiones? ¿Qué hace que sus patentes sean especiales?

Cómo clasificar imágenes de texto en inglés y en otros idiomas usando SVM

Cómo predecir una variable de salida a partir de entradas dadas si la variable de salida y la variable de entrada se muestrean en diferentes intervalos de tiempo

Web Analytics