La normalización suele ser una buena idea y puede arrojar mejores resultados. Si es deseable, a menudo no normalizamos dentro de cada punto de datos; en cambio, normalizamos dentro de cada característica en el conjunto de datos. Entonces algo como
(X – media) / sqrt (var + eps)
donde X es una matriz de diseño de forma (M, N), la media es un vector (N,) que representa la media de cada columna (característica), var es un vector (N,) que representa la varianza de cada columna, y eps es un escalar (p. ej., 1e-8) para evitar la división por cero error (raro pero posible).
- ¿Qué piensa Yoshua Bengio sobre los Algoritmos de aprendizaje de Alineación de retroalimentación?
- ¿Hay conjuntos de datos abiertos que contengan textos y calificaciones de los usuarios para ellos?
- Además de tratar de reconstruir la entrada (como en Autoencoder), ¿qué otras tareas podrían resultar útiles para el aprendizaje no supervisado de redes profundas?
- Cómo aumentar la precisión utilizando redes neuronales convolucionales (CNN / ConvNets) para la regresión
- ¿Existe un puntaje general de 'utilidad' para el rendimiento de recuperación de información?
Otra forma de normalizar, especialmente en redes profundas, es la normalización por lotes [1], donde en cada capa se normaliza entre la función afín (p. Ej., X * W + b, X es matriz de diseño, W es pesos y b es términos de sesgo) y no linealidad ( como ReLU). Consulte el documento para obtener más detalles si está interesado.
[1] http://jmlr.org/proceedings/pape…