¿Cuál es el principio de ‘apostar por la escasez’ en el aprendizaje automático?

Echa un vistazo al blog del profesor Andrew Gelman: ¿A dónde va la “apuesta por el principio de escasez” en un mundo no disperso? para más, pero la idea general es la siguiente:

Supongamos un modelo lineal [matemática] XB = y [/ matemática], donde [matemática] X [/ matemática] es una matriz [matemática] m [/ matemática] por [matemática] n [/ matemática] donde [matemática] n [/ math] es mucho más grande que [math] m [/ math], y estamos tratando de encontrar [math] B [/ math]. Intuitivamente, esto es difícil porque tenemos menos de un punto de datos para cada parámetro que nos gustaría recuperar. Dicho de otra manera, estamos tratando de encontrar la solución a un sistema subdeterminado que no se garantiza que exista.

Sin embargo, si el modelo “verdadero” es escaso, lo que significa que hay una base para [math] \ mathbb {R} ^ n [/ math] tal que [math] B [/ math] tiene muchos ceros, entonces podemos efectivamente recuperarlo minimizando la función objetivo [matemáticas] || Y-XB || _2 ^ 2 + \ lambda || B || _1 [/ matemáticas]. Vea los mínimos cuadrados y la sección LASSO para más detalles. La definición técnica precisa de “muchos ceros” se me escapa, desafortunadamente, pero este es el principio general.

Entonces, la “apuesta por la escasez” es esencialmente una apuesta de que el verdadero modelo tiene muchos ceros de alguna manera. Hay algunas aplicaciones en las que esta es una suposición razonable, como en la detección comprimida, pero hay otras configuraciones en las que esto puede no ser una gran suposición, como argumenta el profesor Gelman.

Visita mi blog

Noisy Time Series III: Fundamentos teóricos de la detección comprimida

La idea se originó en la astrofísica, a fines de los años sesenta y setenta, al tratar de detectar señales muy débiles, como las ondas de gravedad, desde el espacio profundo. (también, algunos tipos que intentan encontrar petróleo pueden haber tenido una idea equivalente)

en ese entonces se comprendió que el Teorema de muestreo de Nyquist-Shannon estaba esencialmente equivocado (o más bien una exageración) y que la mayoría de las señales del mundo real tienen suficiente estructura fundamental y subyacente en la que podemos detectar casi cualquier señal real con solo unas pocas muestras aleatorias .

Tenga en cuenta que, idealmente, queremos ver la norma 0, pero usamos la norma 1 porque es demasiado difícil computacionalmente para buscar todas las posibles soluciones de la norma 0

No estoy seguro del significado histórico de esto, pero creo que uno de los documentos ha sido sobre codificación dispersa (que Quora User señala por su modelo lineal).
En palabras simples, dado un gran conjunto de patrones de entrada, la codificación escasa intenta encontrar un pequeño número de patrones básicos, cuando se combinan en las proporciones correctas, reproducen los patrones de entrada originales [1].

[1] “Codificación dispersa con un conjunto de bases sobrecompletas: ¿una estrategia empleada por V1?

More Interesting

Sinestesia: ¿Existe algún producto que pueda simular una percepción sinestésica utilizando algoritmos de IA?

¿Podría una "verdadera IA" creer en el alma? No si lo haría, pero ¿podría? (Un humano puede o no creer, pero un humano claramente puede creer).

Entreno mi sistema basado en el marco de validación cruzada 10 veces. Ahora me da 10 modelos diferentes. ¿Qué modelo seleccionar como representante?

¿AI tiene una mente?

¿Cuáles son los ejemplos de uso de aprendizaje automático en análisis minorista?

¿Qué es el cuello de botella de adquisición de conocimiento?

¿La IA es capaz de una conciencia autónoma sin programación? ¿Puede un sistema arrancar su propia programación para autorregularse y ser sabiamente equivalente a una conciencia formadora de vida?

¿En qué tipos de datos / variables se pueden usar ANFIS, red neuronal, algoritmo genético y wavelet? ¿Cuáles son sus ventajas comparativas y deméritos / limitaciones?

¿Cuáles son los principios del procesamiento del lenguaje natural del resumen automático? ¿Cuáles son los mejores recursos? ¿Cuántas bases tengo que hacer en PNL para lograr esto? ¿Y qué partes de las teorías de PNL / PC son importantes para construir tal sistema?

¿Recomiendas aprender Prolog, ML o Lisp para Machine Learning e Inteligencia Artificial? ¿Por qué?

¿Debería la gente volverse vegana para convencer a los robots de que no maten humanos?

¿Por qué la optimización de colonias de hormigas es una técnica metaheurística?

Cómo comenzar con el aprendizaje automático

¿Es posible programar una IA para generar automáticamente preguntas dado el texto de un artículo o libro?

¿Cómo es tener a Peter Stone como tu supervisor de doctorado? ¿Cómo es ser parte de su grupo de investigación?