Los estados espurios son patrones [math] x_ {s} \ notin P [/ math], donde [math] P [/ math] es el conjunto de patrones a memorizar. En otras palabras, corresponden a mínimos locales en la función de energía que no deberían estar allí. Pueden estar compuestos de varias combinaciones de los patrones originales o simplemente la negación de cualquier patrón en el conjunto de patrones original. Estos tienden a estar presentes cuando [matemática] \ alpha = | P | / N [/ matemática] (donde [matemática] N [/ matemática] es el número de neuronas) se vuelve demasiado alta para una determinada regla de aprendizaje.
Resulta que los estados espurios son importantes para derivar [math] \ alpha [/ math] en las redes Hopfield. Como sabemos que las ecuaciones de actualización dinámica siempre reducen la energía de un sistema, los mínimos espurios atraparán la red y devolverán resultados incorrectos o incompletos. Por lo general, estos mínimos espurios tienen una energía más alta y una cuenca más pequeña que los patrones reales (aunque esto no está garantizado cuando [matemáticas] | P | [/ matemáticas] es demasiado grande). Esto, naturalmente, conduce a una solución estocástica usando un enfoque tipo Monte Carlo, donde se les da suficiente energía a las neuronas para que no se queden atrapadas en los mínimos locales pero no salten del mínimo correcto del patrón correcto (estas son máquinas de Boltzmann )
Aquí hay una intuición ondulada a mano. Las reglas de aprendizaje proyectan la configuración actual de la red en el subespacio que abarcan los vectores de patrón y luego calculan el vector de patrón que se encuentra más cerca del vector de configuración proyectado. Pero incluso si tuviera patrones completamente ortogonales, no puede especificar más patrones que el número de neuronas (porque luego duplica un patrón o el siguiente patrón que agrega no es ortogonal).
- ¿Cómo comenzaría con el cambio de funciones o el desarrollo de indicadores de funciones en mi empresa? Actualmente utilizamos ramificaciones.
- ¿Cómo se usa el cálculo vectorial en el aprendizaje automático?
- ¿Cuál es la mejor GPU que se utilizará para Deep Learning con presupuesto (> 400 $)?
- ¿Qué trabajo se ha hecho para aplicar la detección de nuevos eventos a eventos sociales en los que los usuarios estarían interesados (es decir, conciertos)?
- ¿Qué son las unidades recurrentes cerradas y cómo se pueden implementar con TensorFlow?
El verdadero problema es que la mayoría de las reglas de aprendizaje dan [matemáticas] \ alpha \ ll N [/ matemáticas] (por ejemplo, la regla de Hebb proporciona [matemáticas] \ alfa \ aproximadamente 0.138 [/ matemáticas] usando derivaciones de campo medio) porque la proyección en el El subespacio no es ortogonal. Esto no es un problema si los patrones en sí mismos son ortogonales (es decir, completamente no correlacionados), pero eso es muy raro en la práctica.
Hay formas de “desaprender” estos mínimos espurios también. Consulte esta pregunta para obtener buenas referencias, especialmente consulte el libro de Rojas, que está disponible de forma gratuita en línea. Además, si puedes conseguir el libro de Hertz, mira la ecuación. (10.22), que es la ecuación de campo media cuyas soluciones dan los posibles estados, incluidos los espurios (también dan una explicación de cómo encontrarlos específicamente).