Q1:
Sí, la normalización de datos tiene otros beneficios además de acelerar el descenso del gradiente. De hecho, la razón más importante para la normalización de datos no es la aceleración, sino el hecho de que todas las características (columnas) en los datos deberían ser capaces de afectar el modelo que estamos entrenando.
Supongamos que tenemos 3 características, X1, X2, X3 y el valor Y que tenemos que predecir (problema de regresión lineal clásico).
Si todos los valores para X1 y X2 están en el rango de 0 a 0.5, y los valores de X3 están en el rango de 1000 a 10,000. Luego, mientras tratamos de minimizar el error de entrenamiento, X1 y X2 casi serán ignorados (aunque puedan ser muy importantes).
- ¿Cuáles son algunos marcos de tiempo realistas para dominar diversas habilidades de programación, como el dominio de Python para la ciencia de datos, git, etc.?
- Fuera de Theano, Caffe y DeepLearning4j, ¿hay alguna buena biblioteca de DeepLearning?
- ¿Qué son los algoritmos del sistema de recomendación? ¿Y cómo implementar en Java?
- ¿Se puede utilizar el aprendizaje automático para mejorar la situación de los agricultores en los países en desarrollo? En caso afirmativo, ¿cuál sería su enfoque?
- ¿Qué arquitectura / herramientas usan los gigantes tecnológicos como Facebook / Amazon / Apple / Microsoft para el análisis de big data / ML?
Es como dar a todas las funciones la misma posibilidad de efectuar la salida.
Q2: ¡Sí! Si entrenó al modelo en características normalizadas, debe hacer una predicción solo después de normalizar los casos de prueba.