¿Por qué el preentrenamiento no supervisado actúa como un regularizador en arquitecturas profundas?

Tomaré un golpe en esto.

Considere la tarea de clasificación de imágenes. Tiene sus entradas a la red, las intensidades de píxeles y las salidas, la etiqueta de clase. Incluso un pequeño conjunto de datos como MNIST tiene 784 variables de entrada (cada una de las cuales puede variar de 0 a 255) y 10 variables de salida (suponiendo una codificación activa).

Ahora, la cantidad de imágenes que pueden representarse por estas 784 “dimensiones” es enorme. Resulta que la mayoría de ellos son ruidos estáticos de todos modos. Sus imágenes ‘naturales’, las que representan dígitos pueden ser, en efecto, pueden representarse por un número menor de dimensiones. (Esto se llama la hipótesis múltiple)

Es decir, tiene información adicional sobre la distribución de sus imágenes, y sería bueno si incorpora esa información adicional en su modelo.

¿No es eso solo regularización? Todo lo que está haciendo es proporcionar a su modelo algunos conocimientos adicionales, para simplificar el difícil problema de aprender un mapeo inverso. (Los problemas inversos generalmente están mal planteados y son más difíciles de resolver sin algún tipo de regularización, como otros mencionaron).

¿Cómo se logra eso?

Cue autoencoders. Los codificadores automáticos aprenden una representación dimensional más baja de sus datos, mientras minimizan la pérdida de reconstrucción. Básicamente, entrena un autoencoder en sus imágenes de entrada y después de que converge, transfiere los pesos a su convenet. Si la memoria me sirve correctamente, esto inicializa los parámetros de la red de conexión a mejores regiones del espacio de parámetros y ayuda a la pendiente del gradiente. (Sin embargo, no me detenga en este punto. Tendré que revisar el papel para estar seguro).

Aunque su pregunta es pertinente a las redes neuronales, mi respuesta es más genérica. Suponga que para los datos dados (X), y = f (X) es su función de predicción. Hay una infinita elección de formas de función de f. Incluso podemos restringir la forma de la función a solo 1 (por ejemplo, cada neurona usa una función sigmoidea o una función de umbral lineal).
El pre-entrenamiento no supervisado intenta aprender una representación g (X) de X. g (X) podría resultar en una representación escasa de los datos (por ejemplo, PCA, reducción de dimensionalidad no lineal, etc.). Como resultado, la función de predicción f (g (X)) ahora está más restringida. Por ejemplo, PCA ha reducido la dimensionalidad de sus datos de 10 a 3. Su función de predicción (digamos lineal) ahora tiene 3 pesos para cada una de las características. Por lo tanto, su clase de función de predicción está restringida a la forma (w0 + w1 * x1 + w2 * x2 + w3 * x3). Como puede ver, el entrenamiento no supervisado ha restringido la clase de función de su función de predicción. La regularización también logra el mismo objetivo, expresado en función de los pesos.

Tomemos la factorización de rango, por ejemplo. La factorización de rango trata de encontrar dos matrices más pequeñas que, cuando se multiplican, recrean la matriz de diseño original (la matriz de entradas). Digamos que tiene esta matriz de entrada:

[matemáticas] \ begin {bmatrix} a & a & b \\\\ c & c & d \ end {bmatrix} [/ math]

Esta matriz de entrada está mal definida (dos características idénticas / dependientes). La factorización de rango intentará descomponerla de una manera que satisfaga más de cerca esta función:

[matemáticas] \ begin {bmatrix} a & a & b \\\\ c & c & d \ end {bmatrix} = \ begin {bmatrix} u \\\\ v \ end {bmatrix} \ times \ begin {bmatrix } x & y & z \ end {bmatrix} [/ math]

Por lo tanto, intentará resolver mejor estas ecuaciones:
[matemáticas] a = u * x [/ matemáticas]
[matemáticas] a = u * y [/ matemáticas]
[matemáticas] b = u * z [/ matemáticas]
[matemáticas] c = v * x [/ matemáticas]
[matemáticas] c = v * y [/ matemáticas]
[matemáticas] d = v * z [/ matemáticas]

Tengo que hacer un gesto con la mano aquí porque ha pasado un tiempo desde que estudié este material, pero intuitivamente puedes ver que u & v capturará más señal de las columnas redundantes (el valor de u / v estará más cerca de un / c que b / d), lo que significa que x e y se llevarán a cero. De esta manera (y similar), la factorización ayuda a la regularización porque margina las columnas dependientes en el espacio incrustado (es decir, factorizado). Puede hacer un argumento similar para otras características de regularización, por ejemplo, las características con alta varianza / ruido se representarán con menos precisión en el espacio incrustado por la misma razón.

More Interesting

¿Por qué la regresión logística se considera un modelo lineal?

¿Cuáles son algunos de los obstáculos que evitan que las empresas aprovechen el poder del aprendizaje automático?

Cómo configurar datos de entrenamiento para una red neuronal para generar valores de joystick basados ​​en una entrada de imagen

Cómo combinar un clasificador basado en características con un modelo de serie temporal como ARIMA

¿Qué es Distill y cuál es su importancia para la investigación de Machine Learning?

¿Cómo puede Machine Learning ayudar a un desarrollador de Android?

¿Qué tipo de sistema de recomendación usar con datos extremadamente escasos?

¿Podemos usar GridSearchCV () en CountVectorizer () cuando usamos modelos scikit-learn en datos de texto, o la búsqueda en cuadrícula solo se puede ejecutar en los modelos predictivos?

¿Hay otros ejemplos de algoritmos de PNL que escriben libros publicados?

¿Qué es un proceso gaussiano?

¿Cómo puedo explicar que las unidades tradicionales de red neuronal recurrente (RNN) sufren el problema del gradiente de fuga?

Con suficiente capacitación, ¿puede el aprendizaje automático escribir una buena historia para un programa de televisión?

¿Es una buena idea dejar el aprendizaje automático después de 2 años y estudiar desarrollo web, si me di cuenta de que no soy tan inteligente para todas esas matemáticas de ML?

¿Por qué la regresión logística se considera robusta a los valores atípicos en comparación con un método de mínimos cuadrados?

Cómo calcular el factor de escala 1 / z en la clasificación de Naive Bayes