La compensación de la variación de sesgo.
Por lo general, veo la compensación de BV explicada en términos de elegir la capacidad del modelo que minimiza el error en los datos de prueba. También he visto el ejemplo visual de disparar a un objetivo y observar la extensión y la concentración de los agujeros de bala utilizados para describir la compensación de BV (ver Figura 1 en Comprender la compensación de variación de sesgo, el mejor artículo que he visto sobre el tema) . Si bien podría ajustar un modelo bastante bueno en la práctica o recrear la figura descrita anteriormente de memoria, nunca sentí que “lo entendí”.
No fue hasta que estaba leyendo un libro de consultoría de gestión, de todas las cosas, cuando me encontré con una línea que hacía que las cosas “encajaran” en mi mente. El autor estaba usando el ejemplo de una cocina como una metáfora para describir las complejidades de trabajar en un negocio moderno.
- Cómo bloquear mis fotos en Android
- Objetivo-C (lenguaje de programación): ¿Qué es el polimorfismo?
- ¿Qué base de datos usa SQL ANSI puro? ¿Es MySQL, Oracle, PostgreSQL o SQL Server?
- ¿Cuáles son algunas paradojas interesantes en informática?
- ¿Cómo puedo procesar grandes conjuntos de datos con mi computadora portátil? En una competencia de minería de datos, hay un CSV de 1GB de información del cliente para procesar. ¿Hay alguna manera de procesarlo sin cargarlo todo en la RAM, o podría procesar solo una parte a la vez?
Dijo que la razón para usar una cocina era porque “nuestra experiencia de cocina es completa y contenida”.
Los conceptos de integridad y contención capturan los conceptos de varianza y sesgo, respectivamente. Desde entonces, descubrí que pensar en los datos y los sistemas en términos del rango de experiencias que pueden atravesar y los factores que contienen (o son representantes) de la influencia causal en los resultados ha contribuido en gran medida a informar mi intuición sobre el modelado problemas. Específicamente, qué tipos de datos son necesarios y los enfoques de modelado que pueden ser apropiados para diferentes problemas, así como qué fuentes de error de modelado podemos encontrar.