El objetivo de la optimización bayesiana es optimizar una función de recuadro negro. No sabes nada sobre esa función. Puede ser convexo o no convexo, o multimodal. Lo único que sabe sobre la función es que puede consultar puntos para evaluar y obtener los valores de la función. Sin embargo, estas consultas son costosas y hay demasiados puntos para consultar cada punto de manera manejable. Por lo tanto, lo aborda definiendo:
Un modelo sobre las posibles funciones que podría ser. Casi siempre usando un proceso gaussiano. Desde los puntos que ya conoce, reduce la cantidad de funciones posibles.
Una función de adquisición. El máximo actual de la función de adquisición le indica dónde consultar a continuación. Por lo tanto, cambia de optimizar la función global a optimizar esta función de adquisición que decide los puntos de consulta por usted. Como define una función de adquisición razonable, es mucho más fácil de optimizar y sabe cómo se ve. Los enfoques populares incluyen la mejora más probable, la mejora esperada, la búsqueda de entropía, el muestreo de Thompson, el límite de confianza superior.
El objetivo final es optimizar esta función de caja negra. Por lo tanto, buscando el dominio, x que maximiza (o minimiza) la función de caja negra desconocida f (x). Encontrar el valor puntual más óptimo.
El aprendizaje activo, por otro lado, puede considerarse como un aprendizaje activo hacia el aprendizaje supervisado ordinario (pasivo). En lugar de tratar de aprender un algoritmo alimentándolo con etiquetas supervisadas (piense en él como un plan de estudios rígido en la escuela donde se ve obligado a aprender Artes, Biología, Química, matemáticas, etc.) para elegir activamente qué etiquetas usar para aprender ( piense en ello como una universidad donde elige activamente qué aprender). Por lo tanto, puede considerarlo como una forma de aprendizaje más “controlada” a medida que decide “activamente” decidir qué aprender a continuación en su algoritmo de aprendizaje supervisado.
Un enfoque para el aprendizaje activo es reducir la incertidumbre en el modelo (obtener la mayor observación informativa). Sin embargo, ese es solo uno de los muchos enfoques u objetivos del aprendizaje activo. Por lo tanto, no debe pensar que el aprendizaje activo maximiza la ganancia de información solo porque hay otros enfoques para ello.
Otro ejemplo, para predecir todas las etiquetas para problemas semi-supervisados. Por ejemplo, en lugar de que una persona etiquete los 100 puntos de datos para fines de aprendizaje supervisado. Puede consultar los pocos puntos más distintivos y luego inferir cuáles deberían ser los otros puntos alrededor de la etiqueta de su vecindario. En este caso, inferimos acerca de las etiquetas potenciales para todos los puntos a consultar. Nada que ver con maximizar una función de recuadro negro.
Intuitivamente, puede pensar en ello como tomar cursos para descubrir en qué especialidad desea ingresar. No tiene que tomar todos los cursos, Mecánica clásica, Mecánica cuántica, Relatividad especial, Algoritmos, Sistemas operativos para darse cuenta de que no le gusta la física y la informática. En cambio, solo tiene que tomar la Mecánica clásica para averiguar si le gusta la Física y los Algoritmos para averiguar si le gusta la Informática.
A continuación, el aprendizaje activo puede ayudar con la generalización. Dado que podría decidir activamente aprender de diferentes muestras, generaliza mejor en lugar de verse obligado a aprender de muestras muy similares que se originaron en el mismo grupo y se sobreajustan a este grupo de muestras.
Además, solo puede elegir puntos de un conjunto finito discreto de muestras que ha recopilado para Active Learning, mientras que en Optimización Bayesiana, asume que la función de recuadro negro es continua, por lo que puede consultar en cualquier lugar.
Para obtener más información sobre Active Learning, consulte el libro de Burr Settle sobre Active Learning [1].
Los métodos utilizados en la optimización bayesiana a veces se pueden utilizar para el aprendizaje activo. De hecho, dado que la optimización bayesiana es un método de optimización global, casi siempre se puede usar para cualquier propósito, suponiendo que pueda evaluar la función de recuadro negro en cualquier momento. Por lo tanto, puede pensar que utiliza métodos de optimización bayesiana para abordar problemas de aprendizaje activo.
También encontré una gran explicación aquí.
Sección 2.8 (pág. 21–22) de referencia [2].
“El aprendizaje activo es otra área relacionada con la optimización bayesiana, y de particular relevancia para nuestra tarea. El aprendizaje activo está estrechamente relacionado con el diseño experimental y, de hecho, la decisión de describir un problema particular como aprendizaje activo o diseño experimental a menudo es arbitraria. Sin embargo, hay algunas características distintivas que utilizan la mayoría (pero no todos) los enfoques de aprendizaje activo.
• El aprendizaje activo suele ser adaptativo: existe un modelo que incorpora todos los datos vistos, y esto se utiliza para seleccionar secuencialmente candidatos para el etiquetado. Una vez etiquetados, los datos se incorporan al modelo y se seleccionan nuevos candidatos. Esta es, por supuesto, la misma estrategia utilizada por la optimización bayesiana.
• El aprendizaje activo emplea un oráculo para el etiquetado de datos, y este oráculo es muy a menudo un ser humano, como es el caso de la optimización bayesiana interactiva.
• El aprendizaje activo generalmente se relaciona con la selección de candidatos de un conjunto finito de datos disponibles (muestreo basado en agrupaciones). El diseño experimental y la optimización generalmente se refieren a dominios continuos.
• Finalmente, el aprendizaje activo se usa generalmente para aprender un modelo de clasificación o, menos comúnmente, de regresión. Por lo general, el criterio de selección de candidatos es la maximización de alguna medida informativa o la minimización de la incertidumbre. Estos criterios a menudo están estrechamente relacionados con los criterios alfabéticos del diseño experimental “.
Referencia
[1] Conferencias de síntesis sobre inteligencia artificial y aprendizaje automático
[2] https://arxiv.org/pdf/1012.2599.pdf