¿Cuál es la intuición detrás de las expectativas en el aprendizaje automático?

Tomar expectativas surge en una variedad de situaciones diferentes y tienen diferentes razones.

  1. Analizando un algoritmo en machine learning. Por ejemplo, cuando está entrenando un modelo en el conjunto de entrenamiento, lo que realmente le importa es su rendimiento en la prueba de prueba, que será peor que su rendimiento en el conjunto de entrenamiento. Teóricamente, el rendimiento de un algoritmo en el conjunto de prueba es más o menos lo mismo que tomar expectativas sobre la distribución. Entonces, al tomar expectativas, podrá analizar el rendimiento de un algoritmo en el conjunto de pruebas.
  2. prueba de hipótesis / estimación de parámetros. Cuando intenta estimar parámetros en un modelo estadístico asumido, la expectativa está relacionada con la consistencia del pescador. En términos generales, necesita su método para dar un buen rendimiento en el entorno más ideal donde tiene muestras infinitas.
  3. Algoritmos estocásticos. Tener expectativas en los algoritmos estocásticos le da una intuición de por qué la aleatoriedad ayudará en el algoritmo. Por ejemplo, en el algoritmo de clasificación rápida, al esperar la longitud de la secuencia después de una manipulación, se obtiene una idea en promedio de qué tan bien se comportará su algoritmo.

La expectativa es el valor promedio después de infinitas repeticiones del evento. Por ejemplo, cuando un dado imparcial de seis lados se tira infinitas veces, el promedio converge a 3.5. Porque el promedio de los valores en el dado es 3.5.

Para una variable aleatoria discreta, esto se calcula promediando el producto del valor y su probabilidad correspondiente. Por ejemplo, suponga que el dado en el ejemplo anterior está sesgado al valor 6 con la probabilidad 0.5 mientras que todos los demás valores tienen la probabilidad 0.1, luego el valor esperado se cambia a 6 * 0.5 + 1 * 0.1 + 2 * 0.1 + 3 * 0.1 + 4 * 0.1 + 5 * 0.1 = 4.5. De manera similar, para una variable aleatoria continua, la suma se reemplaza por integración.

Según esta definición, la pérdida esperada es el promedio del producto de la posible pérdida a la probabilidad asociada con esa pérdida. Idealmente, se intenta calcular una pérdida esperada sobre la entrada completa. Pero a veces no es posible calcularlo porque los datos no están disponibles. En tales casos, una pérdida se calcula sobre los datos disponibles llamados pérdida empírica, que se considera como una aproximación de la pérdida esperada.