¿Qué es la optimización submodular?

Es un campo dedicado a la optimización de funciones submodulares.

Puede estar pensando que no tiene que ser un genio para hacer esa inferencia, así que me expandiré un poco.

Piense en las funciones aplicadas a un conjunto de conjuntos de elementos, desea encontrar el conjunto de conjuntos que maximiza o minimiza algunos cálculos.

Una función es submodular si cumple con la siguiente propiedad: cuando agrega un conjunto a una solución “A”, la mejora es peor que agregar el mismo conjunto a un subconjunto de “A”.
La submodularidad es una versión discreta de la concavidad. Piénsalo 😉

Un ejemplo es el problema de la cubierta del conjunto. Tiene un conjunto de conjuntos y debe encontrar la combinación mínima de esos conjuntos para cubrir algún universo de elementos.

Por ejemplo, que el universo sea: U = {1,2,3,4,5,6,7,8}
y nuestros conjuntos:
S1 = {1,2,3}
S2 = {1,4,5,6}
S3 = {4,5,7}
S4 = {2,4,6,8}
S5 = {6,8}
S6 = {1,3,5,7}

La solución es, por supuesto, S4 y S6.

La función aquí es la cantidad de elementos en el universo cubiertos por nuestros conjuntos y es submodular porque si agregamos un nuevo conjunto a nuestra solución, la mejora tiene que ser peor que agregar el mismo conjunto a un subconjunto de la solución, esto es fácil entender porque un subconjunto de la solución solo puede cubrir los mismos o menos elementos, por lo que cuando agregamos nuevos elementos siempre podemos mejorar más que si agregamos esos mismos elementos a un superconjunto de la solución.

Los algoritmos basados ​​en heurísticas codiciosas generalmente funcionan muy bien para optimizar las funciones submodulares.

Esto tiene varias aplicaciones, por ejemplo en sistemas de recomendación para proporcionar recomendaciones que son “amplias” en una variedad de temas, en otras palabras, desea recomendar elementos que cubran la mayoría de las categorías, no solo elementos de una categoría.

Luis

Muchos problemas de selección de observaciones satisfacen una propiedad intuitiva de rendimientos decrecientes : agregar una observación ayuda más si hicimos pocas observaciones hasta ahora y ayuda menos si ya hicimos muchas observaciones. Este concepto está formalizado por la propiedad de submodularidad.

La submodularidad es una propiedad de las funciones de conjunto [math] f: 2 ^ {V} \ rightarrow \ mathbb {R} [/ math] que asigna a cada subconjunto [math] S \ subseteq V [/ math] un valor [math] [/ matemática] [matemática] f (S). [/ matemática] [matemática] F [/ matemática] se llama submodular si para todos [matemática] A, B \ subseteq V [/ matemática] sostiene que

[matemáticas] F (A) + F (B) \ geq F (A \ copa B) – F (A \ cap B) [/ matemáticas]

Una definición alternativa de submodularidad es la siguiente. Una función set es submodular iff para todos [math] A \ subseteq B \ subseteq V [/ math] y [math] s \ in V \ setminus B [/ math], sostiene que

[matemáticas] F (A \ cup \ {s \}) – F (A) \ geq F (B \ cup \ {s \}) – F (B) [/ matemáticas]

La función submodular conduce a algoritmos de optimización codiciosos con soluciones iguales al menos a [matemática] (1- \ frac {1} {e}) \ veces [/ matemática] valor óptimo.

More Interesting

¿Qué cursos deben tomar los antecedentes de EE para el aprendizaje profundo?

¿Por qué el aprendizaje automático a menudo perpetúa el sesgo?

¿Por qué la optimización del aprendizaje profundo es más rápida en las CPU que en las GPU?

¿Cuáles son los trabajos mejor pagados en el aprendizaje automático y qué habilidades requiere?

¿El parámetro C afecta a una clase SVM?

¿Son los modelos de n-gramas, la codificación de uno en caliente y word2vec diferentes tipos de representaciones de palabras y vectores de palabras?

¿Qué son los hiperparámetros en el aprendizaje automático?

¿Cuál es mejor para la manipulación de datos en python: Pandas o SFrame?

Redes neuronales artificiales: ¿Por qué las partes internas de las neuronas se simulan con una suma lineal de entradas en lugar de alternativas no lineales?

¿Hay algún ejemplo en la inferencia bayesiana de que, incluso con infinitos puntos de datos, el efecto de lo anterior no puede ser "eliminado"?

¿Qué dice el profesor Yaser Abu-Mostafa en su conferencia sobre la viabilidad del aprendizaje?

Entre la agrupación y la clasificación, ¿cuál requiere más experiencia?

¿Los departamentos de policía en los EE. UU. Usan el aprendizaje automático para encontrar patrones en los datos delictivos?

¿Cuáles son las especificaciones de la computadora utilizada para la red neuronal convolucional?

¿Cuáles son los criterios principales para la inicialización de los pesos en el aprendizaje profundo? Si quiero diseñar un algoritmo para la inicialización del peso, ¿qué factores debo tener en cuenta?