Matemáticamente, ¿cómo afecta la temperatura (como en el hiperparámetro, no la temperatura física) a las predicciones de una red neuronal? Ver comentario a continuación.

La temperatura es un concepto bastante general y puede ser una idea útil para el entrenamiento, la predicción y el muestreo. Básicamente, cuanto más alta es la temperatura, más poco probable se explorarán las cosas, cuanto más baja sea la temperatura, más nos aferramos al mundo lineal más probable. Douglas Adams lo explicó bien en la Guía del autoestopista galáctico: el Infinity Improbability Drive tiene una temperatura muy alta, Arthur Dent tiene una temperatura muy baja.

De todos modos, el enlace que proporciona tiene que ver con el muestreo y la generación de texto. El algoritmo de generación es: pedir una distribución de probabilidad para el siguiente personaje, elegir un personaje de eso, imprimirlo, volver a introducir el personaje en el modelo y repetir. Aquí está su malentendido: no elegimos el carácter de mayor probabilidad, tomamos muestras de la distribución.

Si softmax (V / T) está generando la siguiente probabilidad de carácter, donde V es la salida de nuestro modelo y T es ruido, entonces una T muy grande significa que elegimos un próximo carácter aleatorio, mientras que T cerca de 0 significa que siempre elegimos el carácter más probable . Tenga en cuenta que V / T se parece mucho a un número de señal a ruido.

A menos que la red esté a) implementada en hardware o b) la temperatura sea lo suficientemente alta o baja como para derretir o congelar físicamente la computadora en la que se ejecuta la red, la temperatura física no tiene ningún efecto sobre la funcionalidad de una red neuronal