Cómo hacer que una red neuronal genere un ‘cono de probabilidad’ en una tarea de regresión

Hmm, pregunta interesante. Las NN realizan naturalmente la interpolación (encuentre la media). Esto se debe a que están entrenados comparando su salida con la salida real y castigados por cualquier desviación, normalmente usando RMS.

Simplemente ordenando su idioma, probablemente cono estoy bastante seguro de que se refiere a una función de distribución de probabilidad. Si bien la mayoría de los modelos están diseñados para minimizar el error promedio, otro enfoque es minimizar el número de errores. Eche un vistazo a OLS o incluso SVM, funcionan penalizando el sistema por un error, pero no les importa cuán grave sea el error. (Tenga en cuenta que estoy simplificando un poco para mantener esta respuesta una longitud razonable). Incluso puede ajustar la penalización demasiado alta para predecir no solo la mediana, sino cualquier percentil que desee (por ejemplo, pronostique el 25% y el 75% para obtener el rango intercuartil).

Todavía estoy a dos pasos de resolver su problema: en primer lugar, me alejé de las NN y, en segundo lugar, predigo un valor único (por ejemplo, el percentil 25) en lugar de la distribución de probabilidad. Pensemos cómo obtener una función de distribución de probabilidad de un NN.

Una forma sería tener múltiples nodos de salida donde el primer nodo representa, por ejemplo, el 5 ° percentil, el segundo representa el 10 ° percentil y así sucesivamente. Luego usaría diferentes funciones de entrenamiento para que la primera reciba 19 veces la penalización por ir demasiado bajo o demasiado alto (1 vs 19), la segunda es 9 veces (2 vs 18) y así sucesivamente. También querrá cambiarlo de RMS a un simple “correcto o incorrecto”, probablemente con cierta tolerancia donde “casi correcto” cuenta como correcto.

Eso está justo fuera de mi cabeza y sin investigación. Estoy seguro de que este es un problema que se ha abordado antes y, sin duda, se resolvió mucho mejor que mi primer intento. No encontré nada bueno a través de una búsqueda rápida en Internet, siendo el artículo más reciente del ’91. Sospecho que estoy usando los términos de búsqueda incorrectos. Un enfoque interesante que usaron fue agregar una capa de salida adicional y usar softmax para configurarlo. Una vez hecho esto, la penúltima capa de salida actúa como la distribución de probabilidad, muy inteligente, pero no exactamente lo que está buscando.

¿Realmente necesita una red neutral para predecir el precio de una casa? En los viejos tiempos, cuando los RNN se llamaban modelos de predicción de suavizado exponencial, se calculaba en función de una medida de error del modelo y la raíz cuadrada del tiempo …