Hola Apurba, solo vi las otras respuestas a tu pregunta después de publicar la mía y ahora veo que he respondido una pregunta diferente de la que esperabas. Aún así, espero que lo encuentres relevante en el panorama general.
(Nota: esta respuesta en realidad se enfoca en el problema de la saturación de peso , es decir, donde se hacen muchos pesos altos y, por lo tanto, se pierde información debido a la interferencia, no a la saturación del nivel de activación neuronal como Apurba pretendía)
Los modelos de memoria asociativa de un solo ensayo, como Sparsey, el Correlograph de 1969 de Willshaw et al., Y muchos otros, están sujetos a una interferencia de diafonía creciente a medida que se almacenan entradas adicionales. Por lo tanto, se necesita algún modo para evitar que la fracción de aumento de peso se vuelva demasiado grande. Mi respuesta general es que cuando su modelo general es una jerarquía con múltiples niveles y con muchos campos de codificación de memoria (que propongo corresponden a macrocolumnas corticales) en cada nivel, puede usar el concepto de “períodos críticos”, es decir, congelar el aprendizaje en macrocolumnas a niveles más bajos antes de que las matrices de peso aferentes a esas macrocolumnas se saturen demasiado, como se discutió en Rinkus (2014).
- Cómo dar un peso diferente a los conjuntos de características mientras se entrena un clasificador con Scikit
- ¿Cuáles son algunos de los buenos libros sobre redes neuronales artificiales, minería de datos, aprendizaje automático, big data y análisis de datos?
- ¿Por qué se usaría H2O.ai sobre la herramienta de aprendizaje automático scikit-learn?
- ¿Cuál es una buena manera de codificar la geolocalización como una característica?
- ¿Cuáles son los límites del aprendizaje automático? ¿Cuándo puede estar seguro de que un algoritmo ML no podrá darle un resultado satisfactorio?
A primera vista, esto puede parecer problemático ya que evita el nuevo aprendizaje en macrocolumnas congeladas por el resto de la vida útil del modelo. Sin embargo, detener el aprendizaje en macrocolumnas de nivel inferior, incluso al principio de la vida operativa de todo el modelo jerárquico, no implica necesariamente que el aprendizaje se congele en las macrocolumnas en los niveles superiores de la jerarquía. De hecho, se han encontrado períodos críticos en todas las modalidades sensoriales de cerebros biológicos. Esencialmente, lo que está sucediendo es que el conjunto de características o vocabulario, en términos de los cuales un nivel jerárquico inferior representa la entrada (es decir, “habla con”) al siguiente nivel superior se congela (aunque en Sparsey, esto sucede en la granularidad de macrocolumnas individuales, no niveles enteros). Sin embargo, esto no implica que el vocabulario del siguiente nivel superior también se congele. De hecho, la estructura de composición fuertemente recursiva del mundo natural sugiere que una vez que un vocabulario finito se congela en el nivel J, el espacio de características de nivel J + 1, que son composiciones de características de nivel J (congeladas), incluso se esperaría que ocurre, cae exponencialmente en relación con el nivel J. Por lo tanto, el número de características únicas de nivel J + 1 (que nuevamente serán combinaciones (escasas) de características de nivel J) que deberán almacenarse en la memoria (es decir, como el nivel J +1 vocabulario) es exponencialmente menor que el número necesario en el nivel J. Entonces, este razonamiento estadístico argumenta que el tiempo esperado de saturación aumenta exponencialmente con el nivel. Dado que la corteza cerebral cerebral es una jerarquía de ~ 10 niveles, uno puede ver cómo el cerebro en su conjunto puede aprender cosas nuevas a lo largo de la vida humana, incluso si el aprendizaje se congela en niveles más bajos.
De hecho, este razonamiento estadístico jerárquico es crucial para mi sugerencia en otra respuesta de Quora de que Sparsey posee efectivamente una complejidad de tiempo constante [“O (1)”] tanto para el aprendizaje como para la recuperación de coincidencias más cercanas, una capacidad que nunca se ha demostrado para ningún otro modelo (en particular, ningún modelo “hash”), y que es el “Santo Grial” de la computación. Básicamente, si cada macrocolumna individual tiene la propiedad de que el número de pasos necesarios para almacenar un nuevo elemento o recuperar el elemento más cercano es constante (como se ha demostrado desde mi tesis de 1996), entonces el número de pasos necesarios para el conjunto La jerarquía de macrocolumnas, que es solo la suma sobre las mac individuales [en realidad solo una pequeña fracción de las macrocolumnas estará activa en cualquier momento (como se muestra aquí)], también es fija. Si el razonamiento estadístico anterior se mantiene durante la vida operativa de un modelo, entonces el modelo (jerarquía completa) posee efectivamente O (1) complejidad de tiempo tanto para el aprendizaje como para la recuperación de la coincidencia más cercana.