¿Puedo aproximar la función del indicador por un sigmoide para hacer que mi función objetivo (no convexa) sea diferenciable?

Es el que se usa con más frecuencia. Sí, ajustar el parámetro es complicado, pero a menudo no importa tanto. Una diferencia clave a tener en cuenta es que las predicciones serán probabilidades entre cero y uno, mientras que el modelo original (la función del indicador) solo predice certeza (exactamente cero o uno). Aparte de esta diferencia, que quizás tenga que compensar al hacer predicciones (redondeando, por ejemplo), probablemente esté bien usando el sigmoide.

Considere una situación ligeramente diferente. Considere una situación en la que sus variables independientes originales tienen un poco de ruido, y diga que este ruido normalmente se distribuye con media cero. Si ahora trabaja la función de respuesta, obtendría una función que es una versión desplazada en escala y vertical de la función de error [math] \ erf (x) [/ math], con el parámetro dictado por la cantidad de ruido. Esta función es bastante similar a la función sigmoide, pero es mucho más agradable trabajar con el sigmoide (ya que el gradiente se puede expresar en términos del valor de la función, por lo que numéricamente es muy útil).

Ahora, la pregunta sigue siendo: ¿cómo determina la forma exacta de la función de respuesta el comportamiento general? Resulta que no lo hace realmente. Esto realmente se me hizo claro al leer “Las matemáticas de los juegos” de John D. Beasley, donde se discute esto con respecto a los sistemas de clasificación para deportes y juegos (por ejemplo, la clasificación Elo utilizada en el ajedrez). El punto es que cuando hacemos una predicción para un nuevo ejemplo basado en un modelo entrenado en otros ejemplos, usamos la función de respuesta dos veces, una hacia atrás (para la inferencia de las calificaciones apropiadas de los jugadores) y una vez hacia adelante (para la predicción de el resultado de un nuevo juego entre jugadores clasificados). Ligeras diferencias en la forma de la función se cancelan mutuamente en este proceso. En el libro, John D. Beasley explora esto en algunos experimentos en los que usa una respuesta lineal por partes ([matemática] 0 [/ matemática] hasta cierto valor umbral, luego aumenta linealmente a [matemática] 1 [/ matemática], luego constante [matemática] 1 [/ matemática] para valores más altos, como una versión dentada de un sigmoide) como el modelo subyacente real para la simulación, mientras se usa un modelo uniforme para inferencia y predicciones. Los errores cometidos por el modelo se encuentran dentro de cualquier variación natural que pueda esperar debido a otros factores en una configuración del mundo real.