¿Por qué hay una compensación entre exploración y explotación en el aprendizaje por refuerzo?

Tomar tu vida. Aprendes mucho durante los años que vives. La sabiduría convencional te enseña a explorar opciones de carrera, a encontrar lo que te gusta, a ver en qué eres bueno.

Lo mismo ocurre cuando buscas una pareja. Busca opciones, prueba coincidencias, hasta que encuentra la correcta.

Puedes explorar más. O puede optar por una opción, explotar lo que ya sabe sobre las opciones de carrera que ya exploró, o vivir con los rasgos y las peculiaridades de un socio potencial que ya conoce.

¿Pero cuándo lo haces? ¿Y si? Ahí yace el problema.

El aprendizaje por refuerzo se desarrolló para emular los estilos de aprendizaje humano. Cuando el agente (usted) explora más, toma riesgos en el proceso. Te expones a opciones de carrera potencialmente terribles que te quitan años de vida o corres el riesgo de ser rechazado por alguien que crees que te gusta.

Cuando dejas de explorar y te decides por algo, te arriesgas a no encontrar otra opción que pueda ser potencialmente más beneficiosa para ti a largo plazo.

Es por eso que existe una compensación. En las sabias palabras del jefe,


Gracias por el A2A.

Porque el tiempo es limitado. Puede hacer exploración o explotación a la vez, y no puede hacer ambas cosas simultáneamente, en un tiempo limitado. Si explora para encontrar una mejor acción con recompensa, puede ir y obtener una mala recompensa. Puede elegir no explorar y mantener la explotación, aunque la elección que haga su agente puede ser la mejor, aunque es posible que no sepa si lo es, sin explorar todas las opciones.

More Interesting

¿Cómo se usa el aprendizaje automático en la generación de preguntas?

¿Está bien usar API para mi proyecto de último año en Informática?

¿Se pueden utilizar algoritmos genéticos y optimización de enjambre de partículas para construir sistemas de reconocimiento de voz?

En una CNN, cuando la convolución se realiza entre 6 fuentes y 16 mapas como en LeNet, ¿cómo se hacen las convoluciones?

¿Por qué la resolución de las imágenes de entrada en la red convolucional debe tener la misma dimensión (ancho y alto)?

¿Cuál es una pista adecuada para la clasificación de documentos con MATLAB?

¿Puede una red neuronal LSTM aprender a reescribir un código C en C ++ sabiendo que lo entrené con un conjunto de datos equivalente a la instrucción C / C ++?

¿Qué es ingenuo Bayes, clasificación de espacio vectorial y máquinas de vectores de soporte en la recuperación de información?

¿Cómo puede alguien usar los datos de la secuencia de genes para encontrar genes responsables de una enfermedad genética en particular?

¿Cuáles son los problemas de investigación 'hardcore' en visión artificial, aprendizaje automático y arquitectura informática?

¿Cómo funciona la codificación de características de alta cardinalidad con regresión de cresta?

¿Vale la pena obtener un doctorado en aprendizaje automático y procesamiento del lenguaje natural?

¿Es el análisis de datos funcionales simplemente renombrado análisis wavelet en estadísticas?

¿Cuánto cuesta una máquina de crioterapia?

Quiero aprender a extraer datos de un sitio web. ¿Donde debería empezar?