¿Puedo entender que el aprendizaje profundo se utiliza para encontrar la función matemática que mejor se ajusta al patrón de datos? La tecnología cambia la vida futura

Un sistema de aprendizaje profundo (DL) se puede expresar como una función de mapeo.

[matemáticas] G: X \ flecha derecha [/ matemáticas] [matemáticas] Y [/ matemáticas]

La función [matemática] G [/ matemática] normalmente tiene parámetros [matemática] w [/ matemática] y por lo tanto puede escribirse como:

[matemáticas] y = G (x, w) [/ matemáticas]

Dada una pérdida [matemática] L (\ hat {y}, y) [/ matemática] donde [matemática] \ hat {y} [/ matemática] = salida real, [matemática] y [/ matemática] = salida deseada.

Podemos hacer minimización empírica de riesgos (ERM):

[matemáticas] R_ {e} (w) = \ frac {1} {N} \ sum_ {i = 1} ^ {N} L (\ hat {y} _ {i}, y_ {i}) [/ matemáticas ]

El objetivo de un algoritmo de aprendizaje es resolver lo siguiente:

[matemáticas] \ hat {w} = arg mín R_ {e} (w) [/ matemáticas]

Esto puede verse como la búsqueda de la función que minimiza el error de mapeo entre N pares de entrenamiento en el conjunto de entrenamiento dado por:

[matemáticas] S_ {tren} = [(x_1, y_1), (x_2, y_2),…, (x_ {N}, y_ {N})] [/ matemáticas]

Podemos limitar la complejidad del mapeo haciendo minimización de riesgo estructural (SRM) al regularizar el término [math] R_ {e} (w) [/ math]. Esto se hace porque ingenuamente hacer ERM daría como resultado que el mapeo sobreajuste cada punto de datos, incluso los ruidosos o atípicos. Por lo tanto, podemos hacer SRM resolviendo:

[matemáticas] \ hat {w} = arg mín (R_ {e} (w) + \ lambda {C (w)}) [/ matemáticas]

donde [math] \ lambda [/ math] = factor de regularización.

Lo anterior se puede ver como la búsqueda de la función [matemática] \ hat {G} [/ matemática] que reduce el error, pero dado que [matemática] G [/ matemática] se basa en una arquitectura rígida de aprendizaje automático (ML) que no ‘ t cambia durante la sesión de aprendizaje, el algoritmo en realidad está buscando los mejores parámetros [math] \ hat {w} [/ math] para la función de modelo [math] G [/ math] en su lugar, por lo tanto:

[matemáticas] \ hat {G} = G (x, \ hat {w}) [/ matemáticas]

Es la mejor función seleccionada entre las muchas posibles definidas únicamente por los parámetros [math] w [/ math].

El único problema es que la función [matemáticas] G [/ matemáticas] normalmente está latente, es decir, no tendrá que evaluar su forma matemática real, se distribuye entre las unidades de aprendizaje en la arquitectura DL. Es una especie de función de caja negra que no podrá manipular matemáticamente de manera significativa. Una función matemática es una que puede manipular matemáticamente, por lo tanto, la mejor manera de verla es:

Los sistemas DL aprenden funciones de mapeo.

Suena mucho mejor

Espero que esto ayude.

Aprendizaje automáticoAprendizaje profundoInformáticosInteligencia ArtificialMinería de datosProgramación informáticaProgramadoresRedes neuronales artificiales