Creo que estás pensando en esto de la manera incorrecta. El estado no necesita tener dos valores: solo representa un as como un as. Lo que quiere hacer es hacer que las “reglas” sean conscientes de que necesita evaluar lo que sucede de manera diferente dependiendo del resto de las variables de estado (es decir, cartas en las manos). Las reglas en el contexto de un MDP significan cómo define la función de transición y la función de recompensa.
En el lado de la función de transición, la propiedad relevante que debe ser sensible al as es si el jugador entra en un juego de “caída” sobre el estado. Es decir, por lo general, si su puntaje es mayor de 21, evitaría que tomaran más turnos y “terminaran” el MDP. Sin embargo, si una de sus cartas es un as y contarla como un 1 no hace que se quiebren, entonces la función de transición no debería obligar al MDP a terminar.
En el lado de la función de recompensa, en última instancia, desea comparar el puntaje del jugador frente a la casa y obtener una recompensa ganadora si el jugador está más cerca de 21 sin haber terminado (por supuesto, hay reglas más matizadas para el blackjack, pero ignoremoslas por ahora). Lo que eso significa es que cuando calculas el puntaje del jugador y luego la casa para determinar la recompensa, primero intentas contar los ases en una mano como 11; Si la puntuación resultante es <= 21, úsela. Si es más de 21, recalcule la puntuación tratando el as como 1 (repita si hay varios ases en su mano).
- ¿Qué tipo de empresas necesitan / necesitarán ingenieros de Machine Learning?
- ¿R necesita una herramienta de flujo de trabajo visual como RapidMiner y Knime?
- ¿Qué es el modelo log-lineal latente con variables latentes y cómo se entrena tal modelo?
- ¿Cuál es la diferencia entre bootstrapping y validación cruzada?
- ¿Cuáles son las cosas tecnológicas que más impactarán en el futuro de los trabajos (aprendizaje automático, aprendizaje profundo, redes neuronales, etc.)?