¿Cómo se hace la inferencia en una red neuronal con capas de normalización por lotes?

Como mencionó en su pregunta, puede usar la misma ecuación para obtener [math] \ hat {x} [/ math], usando las estadísticas de población (media y varianza calculadas sobre todo el conjunto de entrenamiento). Luego calcula [math] y = \ gamma \ hat {x} + \ beta [/ math]

La segunda ecuación en su pregunta es una forma equivalente de obtener [matemática] y [/ matemática], pero se ha ampliado para que la inferencia use menos operaciones. (por cierto, tenga en cuenta que tiene un error tipográfico / error en su segunda ecuación; debe usar [math] x [/ math], no [math] \ hat {x} [/ math]).

Es decir, en lugar de realizar primero una suma y una división para calcular [matemática] \ hat {x} [/ matemática] y otra multiplicación y suma para calcular [matemática] y [/ matemática], puede calcular [matemática] y [ / matemáticas] con una sola multiplicación y una suma en el momento del examen.

[matemáticas] y ^ {(k)} = \ frac {\ gamma ^ {(k)}} {\ sqrt {Var [x] + \ epsilon}} x ^ {(k)} + \ left (\ beta ^ {(k)} – \ frac {\ gamma ^ {(k)} E [x]} {\ sqrt {Var [x] + \ epsilon}} \ right) [/ math]

Dado que [math] \ frac {\ gamma ^ {(k)}} {\ sqrt {Var [x] + \ epsilon}} [/ math] y [math] \ left (\ beta ^ {(k)} – \ frac {\ gamma ^ {(k)} E [x]} {\ sqrt {Var [x] + \ epsilon}} \ right) [/ math] no dependen de la entrada y, por lo tanto, pueden calcularse previamente.

More Interesting

Cómo analizar un algoritmo de repetición selectiva

¿Cuáles son algunos ejemplos de código de modelos de aprendizaje automático humanos en el circuito? Me ha resultado difícil encontrar tutoriales / documentos que discutan este tema.

¿Los diferentes algoritmos de árbol de decisión ofrecen diferencias significativas en el rendimiento?

¿Qué algoritmo puedo implementar para hacer una reducción de dimensión con restricción no negativa? (PCA se asignará al espacio negativo)

¿Qué tan grande es el mercado de consultoría de aprendizaje automático para nuevas empresas?

¿Qué tipo de algoritmo de aprendizaje usa el cerebro humano y cómo se compara con los algoritmos que se están desarrollando actualmente para la inteligencia artificial?

¿Cuál es el valor de un curso de Coursera sobre aprendizaje automático por Andrew Ng para solicitar una maestría en Estados Unidos en las 20 mejores universidades?

¿Cómo funciona el sistema de recomendación de filtrado basado en contenido por word2vec usando etiquetas?

¿Puedo usar el concepto de aprendizaje automático para predecir cuánta cantidad de comida cocinar por día en un restaurante?

¿Cómo se pueden engañar los modelos de clasificación existentes?

¿Por qué necesitamos Python y Java para el aprendizaje automático mientras tenemos R?

¿Cuáles son los algoritmos para el resumen automático? ¿Alguien puede explicar los pasos en el resumen automático?

¿Cómo podemos interpretar el coeficiente para cierta variable independiente en regresión lineal simple y para el mismo en regresión lineal múltiple?

¿Cuál es la diferencia entre los ingenuos Bayes y los algoritmos de máquina de vectores de soporte?

¿Cuáles son algunos casos de uso para el anonimato de datos?