¿Hay alguna investigación con la función sub modular y la selección de características en el aprendizaje automático?

Hay bastante trabajo sobre la optimización submodular en Machine Learning (mira el trabajo de Andreas Krause en este campo, él es uno de los investigadores clave para esto).

Para la selección de funciones , sin embargo, hay algunos problemas. La cuestión clave es que el valor de la información de los conjuntos de características no es submodular .
Por ejemplo, considere ejemplos que tienen 2 características binarias X e Y, y una clasificación binaria Z, que es igual a (X xo Y).
El valor de la información de la primera característica por sí solo es 0: sin la segunda característica, esta información es inútil. Del mismo modo, el valor de información de la segunda característica en sí es 0. Pero el valor de información del conjunto de ambas características es 1: con estas dos características podemos predecir exactamente Z. Por lo tanto, no hay rendimientos decrecientes: [matemática] 0 = f (\ {X \}) – f (\ emptyset) <f (\ {X, Y \}) – f (\ {Y \}) = 1 [/ math].

Una de las ideas clave (lo que significa que me pareció sorprendente al principio) está en la investigación de la entropía y la información mutua de conjuntos de variables.
Si observamos un conjunto de variables (por ejemplo, las características y el valor pronosticado para una tarea de clasificación), entonces la entropía conjunta sobre todas las variables desconocidas dados los valores de un subconjunto es una función submodular: conociendo X, la información adicional sobre Y se reduce nuestra incertidumbre total sobre X, Y y Z a lo sumo tanto como cuando no conocemos X. Para esta configuración, excelente, tenemos una función submodular y podemos seleccionar qué características queremos usar con una política codiciosa, obteniendo límites agradables en el peor Rendimiento de caso.

Sin embargo, cuando queremos ver solo la incertidumbre sobre otra variable (por ejemplo, Z en el ejemplo anterior), esto no es submodular.

Resumido: la entropía conjunta es submodular, la entropía condicional no lo es.

More Interesting

Cómo beneficiarse legal y significativamente de un algoritmo eficiente o (n ^ 5) para SAT sin romper ningún cifrado o compartir el algoritmo

¿Cuáles son los impactos de resolver el problema P = NP en la criptología?

¿Resolver acertijos me hará mejor en matemáticas, física, informática o resolución general de problemas?

¿Pueden los lenguajes naturales ser completamente modelados por las máquinas de Turing?

¿Qué es la notación de sintaxis abstracta uno?

¿En qué se diferencian las mónadas del encadenamiento?

Cómo probar [matemáticas] p (a \ cup b \ cup c) \ leq p (a) + p (b) + p (c) [/ math]

¿Cuál es el significado de los idiomas [math] \ omega [/ math] en informática?

¿Qué son las matemáticas básicas y fundamentales para la visión por computadora, el aprendizaje automático, la inteligencia artificial, la estructura de datos y algoritmos, sistemas de control, sistemas en tiempo real y procesamiento de señales digitales?

Si desmantelo un cubo de Rubik y luego lo vuelvo a montar de todas las formas posibles, ¿cuántos cubos distintos de Rubik son posibles?

¿Cuáles son algunas limitaciones de la teoría de detección de señales?

¿Cómo han afectado los métodos numéricos y la potencia informática en bruto a las matemáticas puras y la física teórica?

Cómo responder a las consultas de rango medio de manera eficiente

Cómo resolver este problema particular de programación dinámica ACM-ICPC

¿Cuándo son dos algoritmos isomorfos?