¿Cómo puede un estado en el aprendizaje por refuerzo tener dos valores? Por ejemplo, como en el blackjack donde el as es 1 u 11.

Creo que estás pensando en esto de la manera incorrecta. El estado no necesita tener dos valores: solo representa un as como un as. Lo que quiere hacer es hacer que las “reglas” sean conscientes de que necesita evaluar lo que sucede de manera diferente dependiendo del resto de las variables de estado (es decir, cartas en las manos). Las reglas en el contexto de un MDP significan cómo define la función de transición y la función de recompensa.

En el lado de la función de transición, la propiedad relevante que debe ser sensible al as es si el jugador entra en un juego de “caída” sobre el estado. Es decir, por lo general, si su puntaje es mayor de 21, evitaría que tomaran más turnos y “terminaran” el MDP. Sin embargo, si una de sus cartas es un as y contarla como un 1 no hace que se quiebren, entonces la función de transición no debería obligar al MDP a terminar.

En el lado de la función de recompensa, en última instancia, desea comparar el puntaje del jugador frente a la casa y obtener una recompensa ganadora si el jugador está más cerca de 21 sin haber terminado (por supuesto, hay reglas más matizadas para el blackjack, pero ignoremoslas por ahora). Lo que eso significa es que cuando calculas el puntaje del jugador y luego la casa para determinar la recompensa, primero intentas contar los ases en una mano como 11; Si la puntuación resultante es <= 21, úsela. Si es más de 21, recalcule la puntuación tratando el as como 1 (repita si hay varios ases en su mano).

More Interesting

¿El aprendizaje automático es malo para la economía?

¿Se puede utilizar el aprendizaje automático para mejorar la situación de los agricultores en los países en desarrollo? En caso afirmativo, ¿cuál sería su enfoque?

¿Se utilizan algoritmos básicos de CS en el aprendizaje automático?

¿Cómo se puede comparar Big data con Machine Learning?

¿Cuál es una explicación intuitiva para el equilibrio de sesgo-varianza?

¿Alguna vez usamos la estimación de máxima verosimilitud?

¿Cuál sería el mejor desafío de Kaggle para mí como entusiasta del aprendizaje automático de nivel intermedio?

MLconf 2015 Seattle: ¿Cuándo uso la normalización de varianza media / unidad cero frente a la normalización de unidad L1 / L2?

Estoy interesado en el aprendizaje automático y la inteligencia artificial y recién comencé a aprender Python. ¿Qué otras habilidades debo tener en mi haber para tener éxito en este campo?

¿Cuáles son las principales diferencias entre la regresión logística, la red neuronal y las SVM?

Si la IA de aprendizaje automático no puede explicar una respuesta, ¿se puede 'confiar' en un diagnóstico médico?

¿Algunas funciones de activación son mejores que otras en la red neuronal artificial?

¿Cómo se puede aplicar el aprendizaje profundo a los sistemas de recomendación en el mercado de valores?

¿Cuáles son los mejores usos de Deep Learning para la clasificación de relevancia de búsqueda?

¿De qué manera es una 'Máquina de Turing Neural Lie Access' superior a las NTM normales?