Cuando se aplica una red neuronal de avance en 10 puntos de datos (20 características), la pérdida no llega a cero. ¿Cómo es esto posible? ¿Cómo lo depuro?

Saludos para la A2A Jessica.

Estos dos escenarios son los más comunes en mi experiencia:

(1) La tasa de aprendizaje es demasiado alta. Este es el escenario más común. Cuando la tasa de aprendizaje es demasiado alta, SGD podría comenzar a oscilar cerca del mínimo local en la superficie de error. Considere actualizarlo en función de un programa de recocido (por ejemplo, multiplique la tasa de aprendizaje por 0.8 cada época).

(2) Está utilizando funciones de activación lineal y los datos no son linealmente separables. En este caso, es imposible clasificar perfectamente el conjunto de datos. Considere usar una función de activación no lineal como sigmoide.

(3) Este es un error en los cálculos de gradiente. Este es un poco más difícil de depurar. Si el error baja y converge, probablemente esté bien en este frente. Pero si está haciendo algo completamente diferente, entonces ese es probablemente tu problema.

Espero que esto ayude.

Aprendizaje automáticoAprendizaje profundoinformáticaInteligencia ArtificialRedes neuronales artificiales

Related Content

¿Las computadoras personales tradicionales son mejores para aumentar el intelecto humano que los dispositivos móviles?

¿Cuáles son algunas de las mejores prácticas de seguridad al usar Windows?

¿Qué consejo le darías a un desarrollador senior que nunca escribió una prueba unitaria pero su código funciona correctamente en producción?

Informática: ¿Por qué la memoria contenida en los registros es tan costosa?

¿La computación en la nube le permite a uno usar potencia informática remota?

¿Cuál es la solución para eliminar este ransomware?

¿Cuáles son las diferencias entre pensar humanamente y pensar racionalmente?

More Interesting

Cómo alcanzar el nivel de matemáticas requerido para participar en el Concurso Internacional de Programación Colegiada

¿Cuál es mejor CS en BIT mesra o CS en MNIT Jaipur?

¿La EPFL para la informática se considera a la par con CMU, MIT y similares o se considera inferior?

¿Qué son los autómatas?

¿Cómo debo prepararme para una entrevista de aprendizaje automático con mi verano?

¿Cómo demuestras que un idioma es seguro para escribir?

¿Hay alguna forma metódica (algoritmo) de crear un autómata que acepte un idioma dado, dado el idioma como un conjunto ({w | condición (w)})?

¿Es realmente posible construir una IA como Jarvis?

¿Tengo una comprensión correcta del uso de memoria de los procesos?

¿Cómo funcionan las redes de transformadores espaciales?

¿Cuál es el procedimiento para publicar un artículo de informática?

¿Tendrán alguna vez las computadoras su propia conciencia?

¿Cuáles son algunos ejemplos de computación generalizada?

¿Qué es el almacenamiento?

¿Cuál es el microprocesador informático más rápido disponible comercialmente del mundo?

Web Analytics