¿Hay alguna diferencia entre los algoritmos estocásticos y los probabilísticos?

Aquí hay un algoritmo estocástico para un problema de regresión:

Dado el conjunto de datos de entrenamiento [math] D = \ lbrace (x ^ 1, y ^ 1), \ dotsc, (x ^ m, y ^ m) \ rbrace [/ math], encuentra los parámetros [math] w [/ math] de la función [matemática] F (x, w) [/ matemática] tal que la función de pérdida

[matemáticas] \ begin {align *} L (w) = \ sum_ {i = 1} ^ m (y ^ i – F (x ^ i, w)) ^ 2 \ end {align *} [/ math]

se minimiza Suponiendo que esto es difícil o imposible de resolver analíticamente, el descenso de gradiente estocástico recurre a una actualización del parámetro por muestra, de la siguiente manera:

[matemáticas] \ begin {align *} w \ leftarrow w + 2 \ alpha (y ^ iF (x ^ i, w)) ^ 2 \ frac {\ partial} {\ partial w} F (x ^ i, w) \ end {align *} [/ math]

e itera hasta que se cumplan algunos criterios de convergencia.

Mientras que un algoritmo probabilístico típico puede verse completamente diferente. Por ejemplo, el clásico problema de contratación en línea es: dado un flujo entrante de candidatos potenciales ([matemática] N [/ matemática] en total), cada uno con una puntuación objetiva, a quien debe entrevistar uno por uno y decidir sobre el rechazo o la aceptación de inmediato después de cada entrevista, ¿cómo puede maximizar la probabilidad de elegir al mejor candidato? Para lo cual la solución es: entrevistar a los primeros candidatos [matemática] \ frac {N} {e} [/ matemática], anotar la puntuación más alta [matemática] s_ {max} [/ matemática], rechazarlos a todos, luego continuar entrevistando hasta que encuentre otro candidato cuyo puntaje exceda [math] s_ {max} [/ math].