¿Cuál debería ser el parámetro de puntuación cuando quiero usar el aprendizaje por refuerzo para determinar el idioma de un texto dado?

Esta es una pregunta interesante. Parece que está utilizando el aprendizaje por refuerzo (RL) para la clasificación de idiomas, ¿no es así?

En primer lugar, solo mencionar que el uso estándar de los algoritmos RL es aprender una secuencia de acciones que maximicen la recompensa acumulativa (o promedio) esperada a largo plazo sin ningún conocimiento previo del entorno. En otras palabras, RL aprende la política óptima que resuelve el problema de control óptimo estocástico simplemente interactuando con el entorno.

No significa que RL no pueda usarse para la clasificación. De hecho, un paso en la mayoría de los algoritmos RL es predecir la llamada “función de valor”. La función de valor es el objetivo del problema de control (es decir, que básicamente es un problema de optimización dinámica). Da la recompensa acumulativa (o promedio) a largo plazo. Si puede plantear su problema de clasificación como un problema de predicción a largo plazo, entonces puede usar RL para resolverlo.

Por ejemplo, considere que desea clasificar una imagen. Supongamos que la imagen es una cara. Puede plantear el problema de clasificación como encontrar la secuencia de acciones que maximizan la ganancia de información y minimizan el error de predicción. Digamos que su primera acción es muestrear algunos píxeles desde la esquina izquierda. Entonces haces eso y te das cuenta de que los píxeles se ven como una ceja. Entonces, piensas “si encuentro un ojo debajo de la ceja, esto sería muy informativo”. Para que muestree algunos píxeles más debajo de la ceja y se dé cuenta de que los píxeles se parecen a la forma de un ojo. Entonces, usted piensa “si encuentro que otro ojo parece el espejo de este, entonces estaré bastante seguro de que la imagen es una cara. Este ejemplo ilustra el potencial de RL para la extracción de características para la clasificación.

Lamento si mi respuesta fue demasiado vaga. Solo quería señalar en la dirección que creo que tienes que pensar al aplicar RL para aplicaciones no estándar.