Esta es una pregunta interesante. Parece que está utilizando el aprendizaje por refuerzo (RL) para la clasificación de idiomas, ¿no es así?
En primer lugar, solo mencionar que el uso estándar de los algoritmos RL es aprender una secuencia de acciones que maximicen la recompensa acumulativa (o promedio) esperada a largo plazo sin ningún conocimiento previo del entorno. En otras palabras, RL aprende la política óptima que resuelve el problema de control óptimo estocástico simplemente interactuando con el entorno.
No significa que RL no pueda usarse para la clasificación. De hecho, un paso en la mayoría de los algoritmos RL es predecir la llamada “función de valor”. La función de valor es el objetivo del problema de control (es decir, que básicamente es un problema de optimización dinámica). Da la recompensa acumulativa (o promedio) a largo plazo. Si puede plantear su problema de clasificación como un problema de predicción a largo plazo, entonces puede usar RL para resolverlo.
- ¿Puedo solicitar los programas de posgrado de IA en Canadá?
- ¿Es teóricamente posible que la inteligencia artificial tome el control del mundo?
- ¿Cómo se ingresa a un laboratorio / grupo de investigación de inteligencia artificial sin educación formal?
- ¿Qué hará el gobierno con grandes grupos de ciudadanos que están desempleados poco calificados, sin educación y de larga duración si la automatización, la robótica y la inteligencia artificial realmente toman su trabajo?
- ¿Qué lenguaje de programación debo usar para implementar algoritmos de Machine Learning?
Por ejemplo, considere que desea clasificar una imagen. Supongamos que la imagen es una cara. Puede plantear el problema de clasificación como encontrar la secuencia de acciones que maximizan la ganancia de información y minimizan el error de predicción. Digamos que su primera acción es muestrear algunos píxeles desde la esquina izquierda. Entonces haces eso y te das cuenta de que los píxeles se ven como una ceja. Entonces, piensas “si encuentro un ojo debajo de la ceja, esto sería muy informativo”. Para que muestree algunos píxeles más debajo de la ceja y se dé cuenta de que los píxeles se parecen a la forma de un ojo. Entonces, usted piensa “si encuentro que otro ojo parece el espejo de este, entonces estaré bastante seguro de que la imagen es una cara. Este ejemplo ilustra el potencial de RL para la extracción de características para la clasificación.
Lamento si mi respuesta fue demasiado vaga. Solo quería señalar en la dirección que creo que tienes que pensar al aplicar RL para aplicaciones no estándar.