Echa un vistazo al blog del profesor Andrew Gelman: ¿A dónde va la “apuesta por el principio de escasez” en un mundo no disperso? para más, pero la idea general es la siguiente:
Supongamos un modelo lineal [matemática] XB = y [/ matemática], donde [matemática] X [/ matemática] es una matriz [matemática] m [/ matemática] por [matemática] n [/ matemática] donde [matemática] n [/ math] es mucho más grande que [math] m [/ math], y estamos tratando de encontrar [math] B [/ math]. Intuitivamente, esto es difícil porque tenemos menos de un punto de datos para cada parámetro que nos gustaría recuperar. Dicho de otra manera, estamos tratando de encontrar la solución a un sistema subdeterminado que no se garantiza que exista.
Sin embargo, si el modelo “verdadero” es escaso, lo que significa que hay una base para [math] \ mathbb {R} ^ n [/ math] tal que [math] B [/ math] tiene muchos ceros, entonces podemos efectivamente recuperarlo minimizando la función objetivo [matemáticas] || Y-XB || _2 ^ 2 + \ lambda || B || _1 [/ matemáticas]. Vea los mínimos cuadrados y la sección LASSO para más detalles. La definición técnica precisa de “muchos ceros” se me escapa, desafortunadamente, pero este es el principio general.
- ¿Deberíamos estar preocupados por la inteligencia artificial?
- ¿Cuál es la forma estándar de configurar la capacitación de una red neuronal para un trabajo de investigación?
- ¿Cómo decide un ingeniero de aprendizaje automático qué arquitectura de red neuronal (feed-forward, recurrente o CNN) usar para resolver su problema?
- ¿Hay investigadores tratando de entender cómo el cerebro humano construye la realidad visual en 3D y tratando de construir un sistema artificial inspirado en él?
- ¿Qué son exactamente las redes neuronales de convolución y en qué se diferencian en funcionalidad y rendimiento de las NN normales?
Entonces, la “apuesta por la escasez” es esencialmente una apuesta de que el verdadero modelo tiene muchos ceros de alguna manera. Hay algunas aplicaciones en las que esta es una suposición razonable, como en la detección comprimida, pero hay otras configuraciones en las que esto puede no ser una gran suposición, como argumenta el profesor Gelman.