Cómo decidir si usar modelos de aprendizaje automático supervisados ​​o de refuerzo

Aunque uno podría considerar un problema de aprendizaje supervisado como un problema de aprendizaje de refuerzo, generalmente es una mala idea, y no siempre se puede hacer lo contrario. En términos generales, el modelo que debe usar depende del problema que esté tratando de resolver: ¿es un problema de aprendizaje supervisado o estrictamente un problema de aprendizaje de refuerzo?

Si no está seguro de cómo distinguir la diferencia entre los problemas, aquí hay una regla general. Si tiene datos que expresan cuál debería ser la respuesta para varios ejemplos, tiene un problema de aprendizaje supervisado y debe utilizar métodos diseñados para el aprendizaje supervisado.

Por ejemplo, si estamos tratando de predecir si alguien tiene cáncer cerebral y nos dan un montón de imágenes de escáner cerebral que están etiquetadas como de un cerebro con cáncer o un cerebro sin cáncer, tenemos un problema de aprendizaje supervisado, porque se nos dice cuál debería ser la respuesta para cada exploración cerebral de ejemplo.

El aprendizaje de refuerzo generalmente se relaciona con problemas en los que necesita aprender qué acciones debe tomar un agente en un entorno para maximizar una agregación temporal de recompensa que recibirá el agente después de cada acción que tome.

Piense en una rata que intenta llegar al queso al final de un laberinto. A la rata no se le dan datos sobre qué acción debería tomar en un montón de lugares diferentes en el laberinto (eso sería aprendizaje supervisado). En cambio, tiene que probar diferentes acciones y el resultado de la mayoría de las acciones no revelará si esa acción fue en última instancia una buena idea o no hasta más tarde, porque la mayoría de las veces, la rata no puede ver el queso. Una vez que la rata encuentra el queso, tiene que averiguar qué acciones en el pasado fueron las acciones importantes para llevar a ese evento positivo. Además, si la rata alguna vez toma una mala decisión durante su aprendizaje, tiene que vivir con las consecuencias (no hay ctrl-z en la vida).

También podemos hacer que el problema sea aún más difícil para la rata. Tal vez para llegar al queso, la rata tiene que atravesar una región que le da un pequeño pero incómodo shock. Cuando la rata entra por primera vez en una región del laberinto, podría sentirse motivada a darse la vuelta, ya que era incómoda. Sin embargo, si sigue ese camino incómodo, eventualmente encontrará el queso mucho más gratificante que compensa la menor molestia que tuvo que experimentar para llegar allí.

Entonces, qué modelos usa depende de cuál de esos tipos de problemas está tratando de resolver.

Caso especial : hay otro caso en el que proporcionamos datos de un algoritmo, en lugar de obligarlo a interactuar con el entorno, pero sigue siendo el aprendizaje de refuerzo. Es decir, supongamos que tenemos una rata con una cámara en su cabeza explorando el laberinto. Luego, quisimos darle esta cámara a otra rata para que aprenda (obviamente, las ratas no suelen aprender viendo la televisión, pero vamos a fingir que podrían). Aunque proporcionamos los nuevos datos de rata para usar, esos datos no le dicen a la rata qué acción debería haber tomado en cada momento. Sin esa información explícita, no es un problema de aprendizaje supervisado. En cambio, la nueva rata todavía tiene que reconstruir todo lo que observa en ese video, qué acciones en qué lugares conducirían finalmente al queso, causando que sea un problema de aprendizaje de refuerzo. Específicamente, sería lo que se llama un problema de aprendizaje de refuerzo fuera de la política fuera de línea.

Si su conjunto de datos tiene etiquetas, utilice el aprendizaje supervisado.

Si su conjunto de datos no está etiquetado, pero tiene una función que puede usar un estado para calcular una recompensa, use el aprendizaje por refuerzo.