Tomaré un golpe en esto.
Considere la tarea de clasificación de imágenes. Tiene sus entradas a la red, las intensidades de píxeles y las salidas, la etiqueta de clase. Incluso un pequeño conjunto de datos como MNIST tiene 784 variables de entrada (cada una de las cuales puede variar de 0 a 255) y 10 variables de salida (suponiendo una codificación activa).
Ahora, la cantidad de imágenes que pueden representarse por estas 784 “dimensiones” es enorme. Resulta que la mayoría de ellos son ruidos estáticos de todos modos. Sus imágenes ‘naturales’, las que representan dígitos pueden ser, en efecto, pueden representarse por un número menor de dimensiones. (Esto se llama la hipótesis múltiple)
- ¿Cuánto tiempo tomará aprender Python para que pueda aprender el aprendizaje automático?
- En su opinión, ¿la sugerencia de lectura recomendada basada en la actividad de navegación de los usuarios de Wikipedia mejorará la genialidad del sitio?
- ¿Cómo puedo encontrar un grupo de estudio para el aprendizaje automático en Hong Kong?
- ¿La pérdida de softmax es igual a la pérdida de entropía cruzada?
- ¿Cómo puedo entrenar a un clasificador de imágenes para detectar mi propia cara de un conjunto de datos de 16,000 imágenes?
Es decir, tiene información adicional sobre la distribución de sus imágenes, y sería bueno si incorpora esa información adicional en su modelo.
¿No es eso solo regularización? Todo lo que está haciendo es proporcionar a su modelo algunos conocimientos adicionales, para simplificar el difícil problema de aprender un mapeo inverso. (Los problemas inversos generalmente están mal planteados y son más difíciles de resolver sin algún tipo de regularización, como otros mencionaron).
¿Cómo se logra eso?
Cue autoencoders. Los codificadores automáticos aprenden una representación dimensional más baja de sus datos, mientras minimizan la pérdida de reconstrucción. Básicamente, entrena un autoencoder en sus imágenes de entrada y después de que converge, transfiere los pesos a su convenet. Si la memoria me sirve correctamente, esto inicializa los parámetros de la red de conexión a mejores regiones del espacio de parámetros y ayuda a la pendiente del gradiente. (Sin embargo, no me detenga en este punto. Tendré que revisar el papel para estar seguro).