Un sistema de aprendizaje profundo (DL) se puede expresar como una función de mapeo.
[matemáticas] G: X \ flecha derecha [/ matemáticas] [matemáticas] Y [/ matemáticas]
La función [matemática] G [/ matemática] normalmente tiene parámetros [matemática] w [/ matemática] y por lo tanto puede escribirse como:
- ¿Qué es la inteligencia neuronal?
- Cómo construir una red neuronal para el conjunto de datos de lente de película
- Cuando hacemos que la IA sea consciente y sienta que es un dolor de entrenamiento existente, ¿seremos torturadores?
- ¿AI podría escribir código?
- ¿Cuál es la relación entre el aprendizaje automático y la teoría de la información?
[matemáticas] y = G (x, w) [/ matemáticas]
Dada una pérdida [matemática] L (\ hat {y}, y) [/ matemática] donde [matemática] \ hat {y} [/ matemática] = salida real, [matemática] y [/ matemática] = salida deseada.
Podemos hacer minimización empírica de riesgos (ERM):
[matemáticas] R_ {e} (w) = \ frac {1} {N} \ sum_ {i = 1} ^ {N} L (\ hat {y} _ {i}, y_ {i}) [/ matemáticas ]
El objetivo de un algoritmo de aprendizaje es resolver lo siguiente:
[matemáticas] \ hat {w} = arg mín R_ {e} (w) [/ matemáticas]
Esto puede verse como la búsqueda de la función que minimiza el error de mapeo entre N pares de entrenamiento en el conjunto de entrenamiento dado por:
[matemáticas] S_ {tren} = [(x_1, y_1), (x_2, y_2),…, (x_ {N}, y_ {N})] [/ matemáticas]
Podemos limitar la complejidad del mapeo haciendo minimización de riesgo estructural (SRM) al regularizar el término [math] R_ {e} (w) [/ math]. Esto se hace porque ingenuamente hacer ERM daría como resultado que el mapeo sobreajuste cada punto de datos, incluso los ruidosos o atípicos. Por lo tanto, podemos hacer SRM resolviendo:
[matemáticas] \ hat {w} = arg mín (R_ {e} (w) + \ lambda {C (w)}) [/ matemáticas]
donde [math] \ lambda [/ math] = factor de regularización.
Lo anterior se puede ver como la búsqueda de la función [matemática] \ hat {G} [/ matemática] que reduce el error, pero dado que [matemática] G [/ matemática] se basa en una arquitectura rígida de aprendizaje automático (ML) que no ‘ t cambia durante la sesión de aprendizaje, el algoritmo en realidad está buscando los mejores parámetros [math] \ hat {w} [/ math] para la función de modelo [math] G [/ math] en su lugar, por lo tanto:
[matemáticas] \ hat {G} = G (x, \ hat {w}) [/ matemáticas]
Es la mejor función seleccionada entre las muchas posibles definidas únicamente por los parámetros [math] w [/ math].
El único problema es que la función [matemáticas] G [/ matemáticas] normalmente está latente, es decir, no tendrá que evaluar su forma matemática real, se distribuye entre las unidades de aprendizaje en la arquitectura DL. Es una especie de función de caja negra que no podrá manipular matemáticamente de manera significativa. Una función matemática es una que puede manipular matemáticamente, por lo tanto, la mejor manera de verla es:
Los sistemas DL aprenden funciones de mapeo.
Suena mucho mejor
Espero que esto ayude.