¿Cómo difieren la optimización bayesiana y el aprendizaje activo?

Aprendizaje activo: el objetivo es seleccionar las observaciones más informativas (posiblemente ruidosas) para actualizar un modelo existente para predicciones futuras, sujeto a algunas restricciones presupuestarias de muestreo. Las recompensas (medida de informatividad) generalmente se definen en función de alguna medida formal de incertidumbre predictiva, como la probabilidad de cada clase según el modelo actual, la entropía o la información mutua.

Optimización bayesiana: el objetivo es seleccionar y recopilar las observaciones más informativas (posiblemente ruidosas) para encontrar el máximo global de una función objetivo desconocida, altamente compleja (p. Ej., No convexa, sin expresión cerrada o derivados) modelada por un GP dado un presupuesto de muestreo (por ejemplo, número de evaluaciones de funciones costosas). Las recompensas (medida informativa) se definen utilizando una función de adquisición basada en la mejora (por ejemplo, probabilidad de mejora o mejora esperada sobre el máximo actualmente encontrado), basada en entropía o límite de confianza superior (UCB).

Si AL se realiza en el marco GP, está claro que existen vínculos estrechos entre estos métodos, siendo la principal diferencia el tipo de función de recompensa utilizada.

Este reciente artículo:

Planificación del proceso gaussiano con funciones de recompensa continua de Lipschitz: hacia la unificación de la optimización bayesiana, el aprendizaje activo y más allá

proporciona un marco de planificación de proceso gaussiano adaptativo no miope (GPP), que cuando se usa con una clase general de funciones de recompensa continua de Lipschitz puede unificar algunos criterios de AL y BO (por ejemplo, UCB).

¿Cuáles son algunos posibles temas de investigación en Computational Social Choice?

¿Qué son las arquitecturas CISC y RISC? ¿Cómo se diferencian entre sí?

¿Cuáles son algunas tesis doctorales notables en aprendizaje automático? ¿Por qué son notables?

En el campo de la visión por computadora, ¿a qué se refiere el término 'segmentación'?

En informática, los temas de comercio algorítmico no parecen ser populares. ¿Porqué es eso?

¿Cuáles son algunas áreas candentes en informática en Oriente Medio?

El objetivo de la optimización bayesiana es optimizar una función de recuadro negro. No sabes nada sobre esa función. Puede ser convexo o no convexo, o multimodal. Lo único que sabe sobre la función es que puede consultar puntos para evaluar y obtener los valores de la función. Sin embargo, estas consultas son costosas y hay demasiados puntos para consultar cada punto de manera manejable. Por lo tanto, lo aborda definiendo:

Un modelo sobre las posibles funciones que podría ser. Casi siempre usando un proceso gaussiano. Desde los puntos que ya conoce, reduce la cantidad de funciones posibles.

Una función de adquisición. El máximo actual de la función de adquisición le indica dónde consultar a continuación. Por lo tanto, cambia de optimizar la función global a optimizar esta función de adquisición que decide los puntos de consulta por usted. Como define una función de adquisición razonable, es mucho más fácil de optimizar y sabe cómo se ve. Los enfoques populares incluyen la mejora más probable, la mejora esperada, la búsqueda de entropía, el muestreo de Thompson, el límite de confianza superior.

El objetivo final es optimizar esta función de caja negra. Por lo tanto, buscando el dominio, x que maximiza (o minimiza) la función de caja negra desconocida f (x). Encontrar el valor puntual más óptimo.

El aprendizaje activo, por otro lado, puede considerarse como un aprendizaje activo hacia el aprendizaje supervisado ordinario (pasivo). En lugar de tratar de aprender un algoritmo alimentándolo con etiquetas supervisadas (piense en él como un plan de estudios rígido en la escuela donde se ve obligado a aprender Artes, Biología, Química, matemáticas, etc.) para elegir activamente qué etiquetas usar para aprender ( piense en ello como una universidad donde elige activamente qué aprender). Por lo tanto, puede considerarlo como una forma de aprendizaje más “controlada” a medida que decide “activamente” decidir qué aprender a continuación en su algoritmo de aprendizaje supervisado.

Un enfoque para el aprendizaje activo es reducir la incertidumbre en el modelo (obtener la mayor observación informativa). Sin embargo, ese es solo uno de los muchos enfoques u objetivos del aprendizaje activo. Por lo tanto, no debe pensar que el aprendizaje activo maximiza la ganancia de información solo porque hay otros enfoques para ello.

Otro ejemplo, para predecir todas las etiquetas para problemas semi-supervisados. Por ejemplo, en lugar de que una persona etiquete los 100 puntos de datos para fines de aprendizaje supervisado. Puede consultar los pocos puntos más distintivos y luego inferir cuáles deberían ser los otros puntos alrededor de la etiqueta de su vecindario. En este caso, inferimos acerca de las etiquetas potenciales para todos los puntos a consultar. Nada que ver con maximizar una función de recuadro negro.

Intuitivamente, puede pensar en ello como tomar cursos para descubrir en qué especialidad desea ingresar. No tiene que tomar todos los cursos, Mecánica clásica, Mecánica cuántica, Relatividad especial, Algoritmos, Sistemas operativos para darse cuenta de que no le gusta la física y la informática. En cambio, solo tiene que tomar la Mecánica clásica para averiguar si le gusta la Física y los Algoritmos para averiguar si le gusta la Informática.

A continuación, el aprendizaje activo puede ayudar con la generalización. Dado que podría decidir activamente aprender de diferentes muestras, generaliza mejor en lugar de verse obligado a aprender de muestras muy similares que se originaron en el mismo grupo y se sobreajustan a este grupo de muestras.

Además, solo puede elegir puntos de un conjunto finito discreto de muestras que ha recopilado para Active Learning, mientras que en Optimización Bayesiana, asume que la función de recuadro negro es continua, por lo que puede consultar en cualquier lugar.

Para obtener más información sobre Active Learning, consulte el libro de Burr Settle sobre Active Learning [1].

Los métodos utilizados en la optimización bayesiana a veces se pueden utilizar para el aprendizaje activo. De hecho, dado que la optimización bayesiana es un método de optimización global, casi siempre se puede usar para cualquier propósito, suponiendo que pueda evaluar la función de recuadro negro en cualquier momento. Por lo tanto, puede pensar que utiliza métodos de optimización bayesiana para abordar problemas de aprendizaje activo.

También encontré una gran explicación aquí.
Sección 2.8 (pág. 21–22) de referencia [2].

“El aprendizaje activo es otra área relacionada con la optimización bayesiana, y de particular relevancia para nuestra tarea. El aprendizaje activo está estrechamente relacionado con el diseño experimental y, de hecho, la decisión de describir un problema particular como aprendizaje activo o diseño experimental a menudo es arbitraria. Sin embargo, hay algunas características distintivas que utilizan la mayoría (pero no todos) los enfoques de aprendizaje activo.

• El aprendizaje activo suele ser adaptativo: existe un modelo que incorpora todos los datos vistos, y esto se utiliza para seleccionar secuencialmente candidatos para el etiquetado. Una vez etiquetados, los datos se incorporan al modelo y se seleccionan nuevos candidatos. Esta es, por supuesto, la misma estrategia utilizada por la optimización bayesiana.

• El aprendizaje activo emplea un oráculo para el etiquetado de datos, y este oráculo es muy a menudo un ser humano, como es el caso de la optimización bayesiana interactiva.

• El aprendizaje activo generalmente se relaciona con la selección de candidatos de un conjunto finito de datos disponibles (muestreo basado en agrupaciones). El diseño experimental y la optimización generalmente se refieren a dominios continuos.

• Finalmente, el aprendizaje activo se usa generalmente para aprender un modelo de clasificación o, menos comúnmente, de regresión. Por lo general, el criterio de selección de candidatos es la maximización de alguna medida informativa o la minimización de la incertidumbre. Estos criterios a menudo están estrechamente relacionados con los criterios alfabéticos del diseño experimental “.

Referencia

[1] Conferencias de síntesis sobre inteligencia artificial y aprendizaje automático

[2] https://arxiv.org/pdf/1012.2599.pdf

Chee Loong Soon

More Interesting

¿Por qué alguien querría ser profesor en lugar de trabajar en Microsoft Research? El beneficio más obvio es que puedes enseñar, pero ¿hay otros beneficios?

¿Cuáles son algunos campos crecientes y relativamente desconocidos de la informática (fuera de los campos como IA, criptografía, bioinformática, minería de datos)?

¿Ha habido algún progreso en la arquitectura de subsunción desde que se introdujo?

¿Cómo empiezo a aprender informática distribuida?

¿Los procesadores se ralentizan con la edad?

¿Dónde está el "YouTube" de la computación humana gratuita?

¿Cuál es el significado de las funciones de conjunto submodular?