¿Cuál es la explicación de la fórmula de compensación de Bias Variance?

f (x) es el valor de verdad fundamental para el parámetro; No está muestreado. El sesgo le indica qué tan lejos de la marca está su estimación (E [f ^ (x)]), promediada en múltiples muestreos, desde esa verdad básica (f (x)).

Simplifiquemos esto un poco. Probablemente hayas visto la metáfora de práctica objetivo de sesgo y varianza. La imagen inferior izquierda es la que se debe mirar: una agrupación ajustada (de baja varianza) que está consistentemente a 2 anillos por encima del objetivo. Aquí, el centro del objetivo rojo es la verdad fundamental, o f (x); la agrupación de tomas negras encima es un conjunto de muestras f ^ (x), y el centro de esa agrupación es E [f ^ (x)], que tiene una distancia distinta de cero desde el centro del objetivo rojo. Esa distancia es el sesgo.

Actualización: Acabo de observar esto en su expresión, la expectativa en el término de sesgo incluye el término [matemática] f (x) [/ matemática] también. Entonces el término de sesgo es: [matemáticas] (E [\ hat {f} (x) – f (x)]) [/ matemáticas]

El término de sesgo es la distancia (al cuadrado) desde el valor verdadero de [matemática] f [/ matemática] en [matemática] x [/ matemática] al (promedio de) valor estimado. El rendimiento de su estimador se promedia (de ahí la media de [math] \ hat {f} [/ math]); El verdadero valor de x es la salida de la función que está tratando de estimar (que es determinista y, por lo tanto, no tiene sentido promediar).

La fórmula del sesgo es para el sesgo en x. f (x) tiene un valor único para cada x, por lo tanto, no hay necesidad de promediarlo (a diferencia de f_hat (x), que debe promediarse sobre múltiples estimaciones de f_hat en cada x).

Estimar el sesgo real puede ser complicado, a menos que sepa f (x) en cada x. Si conoce f (x), puede estimarlo sobre cada muestra en su conjunto de entrenamiento y calcular su promedio para obtener una estimación del sesgo general. Esto supone que su conjunto de entrenamiento es una buena representación de la distribución de x.

More Interesting

¿Cómo obtienen las empresas datos de capacitación para implementar el aprendizaje para clasificar algoritmos, especialmente en el contexto de búsqueda?

¿Cómo podemos hacer un análisis de opinión para una revisión de película cuando no tenemos un conjunto de datos de capacitación?

¿Cómo ser bueno en la programación de Python si quiero aprender el aprendizaje automático? ¿Son estos problemas diferentes de la programación competitiva?

¿Cuál es el mejor tutorial de Python para el aprendizaje automático?

¿Cuál es el mejor marco de aprendizaje profundo para Apache Spark?

¿Existe la idea de utilizar la regularización para evitar el sobreajuste en la econometría, como lo enseñan los economistas?

¿Cuáles son algunas aplicaciones potenciales del seguimiento de objetos depredadores (nuevo algoritmo)?

¿Qué tan grande es el mercado de consultoría de aprendizaje automático para nuevas empresas?

¿Cómo aprendo el aprendizaje automático y el procesamiento de imágenes para aplicaciones móviles? Por ejemplo, para usar los mismos efectos de filtro en aplicaciones iOS y Android, ¿debería usar Python?

¿Con qué biblioteca de aprendizaje automático debo experimentar entre SparkML, Microsoft Azure ML y AWS ML?

¿Cómo puede ser posible la IA si las máquinas se limitan a la lógica y el lenguaje?

¿Cómo debo seguir el curso de Andrew NG si quiero aprender el aprendizaje automático en Python y cómo debo progresar después de completar el curso?

¿Cuáles son las soluciones de producción efectivas para el reconocimiento de entidades nombradas?

¿Por qué a la gente le gusta la red profunda con menos parámetros de aprendizaje incluso cuando el rendimiento de la prueba es peor que otros?

¿Por qué necesitamos tasas de aprendizaje adaptativo para Deep Learning?