Cómo obtener un codificador automático de ruido para aprender una representación demasiado completa

Para pasar de dA a dA excesivamente completo, simplemente aumente el número de unidades ocultas. Las características que obtienes de esto generalmente terminan siendo bastante ruidosas. Para resolver el problema del ruido, puede agregar el costo L1 en todos los pesos:

costo de reconstrucción + lambda * log (cosh (100 * w))

La parte después de lambda es el costo L1. Esto generalmente lo hará

¿Es un 'predictor de la siguiente palabra' que hice el aprendizaje automático o el procesamiento del lenguaje natural?
¿Qué es el modelo log-lineal latente con variables latentes y cómo se entrena tal modelo?
¿Cuántas estadísticas y probabilidades debo saber para sumergirme en el aprendizaje automático?
¿Cuáles son las preguntas más importantes en el aprendizaje automático?
Cómo interpretar una capa totalmente conectada como una capa convolucional para hacer predicciones densas de píxeles

Sin costo de escasez:

con costo de dispersión:

Las dos imágenes anteriores se generan utilizando una versión modificada del tutorial dA de Deep Learning. Sin embargo, algunas cosas modificadas:
1. las imágenes de entrada se recortan a 10 × 10 para reducir el tiempo de entrenamiento
2. número de unidades ocultas: 144, por lo que está demasiado completo
3. Costo L1 agregado de la manera especificada arriba

Related Content

¿Cuál es un buen tutorial sobre el uso de Weka con Big Data?

¿Cuáles son los algoritmos más populares utilizados en redes neuronales convolucionales?

¿Cuáles son algunos de los problemas abiertos más importantes en el aprendizaje automático en este momento?

¿Por qué Python es tan brillantemente superior a R en aprendizaje automático y tan totalmente inferior en estadística médica e investigación de drogas?

¿Cómo estimar la divergencia KL si no se conoce el posterior? En inferencia variacional, KL se utiliza para encontrar una distribución que se aproxime al verdadero posterior, pero el KL requiere conocer el posterior mismo. ¿Cómo se trata esto?

En un modelo gráfico dirigido, el aprendizaje es fácil pero la inferencia es difícil. ¿Es esto cierto?

Aplicaciones móviles: ¿Es difícil admitir el chat de video y escritura de texto al mismo tiempo en dispositivos de teléfonos inteligentes?

More Interesting

Si enseñamos a un programa de aprendizaje automático cómo hacer operaciones aritméticas, ¿sería más rápido o más lento que los humanos?

Como científico de datos, ¿qué te inspiró a seguir una carrera en ciencia de datos?

¿Por qué Bayes ingenuo se considera un modelo generativo?

Cómo obtener una pasantía de investigación en aprendizaje automático o inteligencia artificial en una universidad de los EE. UU., Ser indio trabajando en una startup

¿Cuáles son algunas buenas aplicaciones o scripts que prueban muchas técnicas de aprendizaje automático a la vez para problemas de predicción?

¿Por qué los modelos gráficos probabilísticos tienen un rendimiento inferior en las tareas de clasificación en comparación con las redes neuronales o las máquinas de vectores de soporte?

¿Dónde entran en juego las funciones de activación en una red neuronal de convolución?

En su opinión, ¿la sugerencia de lectura recomendada basada en la actividad de navegación de los usuarios de Wikipedia mejorará la genialidad del sitio?

¿Cómo funciona Watson Personality Insights de IBM?

¿En qué se diferencia la teoría del "cuello de botella de información" del aprendizaje profundo del ejemplo conocido de tener una capa oculta de dimensión reducida en un codificador automático?

¿Cómo desarrollar una intuición para diseñar nuevos algoritmos?

¿Aprendizaje automático sin historia matemática?

¿Cuáles son algunas aplicaciones del aprendizaje automático y la inteligencia artificial para los datos de detección remota basados en el espacio y los SIG?

Cómo usar la red neuronal convolucional en sus proyectos

¿Es Bayes jerárquico básicamente una introducción de hiperparámetros en el modelo?

Web Analytics