¿Cómo nos beneficia exactamente el entrenamiento previo en los métodos de aprendizaje profundo?

El entrenamiento previo es un método que entrena redes neuronales poco profundas utilizando un objetivo sin supervisión antes de apilarlas para crear redes neuronales profundas.

Este método fue popular en el pasado debido a la cuestión del gradiente de desaparición de las unidades sigmoideas. Dado que la pendiente de las funciones sigmoideas es cero para la mayoría de los valores, las capas más profundas se estaban volviendo cada vez menos propagadas. Básicamente, los modelos profundos quedaron atrapados en soluciones pobres debido a la pobre propagación del gradiente de error de las funciones sigmoideas.

Más recientemente, esto no se considera necesario ya que hemos encontrado mejores esquemas de inicialización de peso (valores más pequeños) y funciones de activación que permiten una mejor propagación del gradiente de error (unidades lineales rectificadas).

Los mínimos locales encontrados ahora y los encontrados en el pasado son muy diferentes, es decir, los que se resolvieron después del problema del gradiente de desaparición son mucho mejores.

Related Content

¿Cuáles son las herramientas basadas en redes neuronales disponibles ahora para el consumidor?

¿Cómo se explica el aprendizaje automático y la inteligencia artificial a un niño de 5 años?

¿Qué significa "las redes neuronales profundas son covariantes para la traducción"?

¿Cuáles son algunas buenas charlas sobre fragmentación?

¿Qué métodos / códigos están disponibles para estudiar un corpus que consiste en correos electrónicos?

¿Cómo están afectando las interrupciones digitales a las personas?

¿Cómo deberías comenzar una carrera en Machine Learning?

More Interesting

¿Qué puedo hacer con un conjunto de datos de temperatura?

¿Cuál es la diferencia entre la regularización y el sesgo inductivo en el aprendizaje automático?

¿Cuál es la diferencia entre agrupar sin PCA y agrupar con PCA?

¿Cuántos datos se producen diariamente y cómo se obtuvo esa cifra?

¿Cómo explicarías la probabilidad condicional y el teorema de Bayes a un niño?

¿Hay un equivalente a Rosalind en el aprendizaje automático?

Cómo saber si estoy hecho para el aprendizaje automático y las estadísticas

¿Debo usar bibliotecas de python como Scikit-learn para ML que tienen algoritmos estándar implementados (considerando que soy un novato en el aprendizaje automático)?

¿Por qué el aprendizaje automático se usa mucho para la clasificación de anuncios de Google y menos para su clasificación de búsqueda? ¿Qué llevó a esta diferencia?

¿Cuáles son algunos casos de mal uso de las redes neuronales?

¿Por qué la optimización del aprendizaje profundo es más rápida en las CPU que en las GPU?

¿Cuáles son algunas aplicaciones actuales de las redes neuronales convolucionales además del análisis de imagen, video y discurso?

¿Cuáles son algunas aplicaciones de PageRank que no sean motores de búsqueda?

¿Podrían probarse los conceptos de la medicina tradicional china mediante el aprendizaje profundo?

¿Cuáles son las buenas heurísticas para elegir el tamaño de un lote en el entrenamiento de la red neuronal?

Web Analytics