Pienso en el aprendizaje por refuerzo como otra forma de obtener señales de supervisión para entrenar un modelo.
Por supuesto, las señales así obtenidas son de peor calidad que la supervisión directa, ya que se obtiene un puntaje impreciso para toda una secuencia / política ejecutada y, por lo tanto, la asignación de crédito se convierte en un obstáculo, pero no obstante es una señal de supervisión.
Dentro del paradigma de aprendizaje por refuerzo, puede decidir diseñar sus parámetros libres como desee (podemos imaginar que los vecinos más cercanos o la búsqueda de tablas equivalente también sea un modelo), y elegir el algoritmo de aprendizaje para ajustar esos parámetros, de nuevo bastante similar a aprendizaje supervisado convencional.
- ¿Por qué no hay una red neuronal que diseñe redes neuronales personalizadas?
- Si alguien hizo el código para un AGI a nivel humano disponible en Internet en este momento (en 2017) que se ejecutó en una sola PC de escritorio, ¿cómo afectaría eso al mundo?
- ¿Son los insectos más inteligentes que la mejor IA de hoy? ¿Por qué o por qué no?
- ¿Cortana aprende y mejora con cada consulta, o solo mejora con actualizaciones?
- ¿Por qué Geoffrey Hinton sospecha de la propagación hacia atrás y quiere que la IA comience de nuevo?
Organizar estos parámetros libres en jerarquías simplemente nos permitió aprender funciones más sofisticadas, y la propagación hacia atrás permitió absorber tantos datos de entrenamiento como arrojamos a los modelos: esto es algo que los modelos tradicionales (o los llamados modelos / enfoques libres de modelos como Q -aprendizaje) no pudieron hacerlo.
Los beneficios son exactamente los mismos que para el caso de aprendizaje supervisado, donde las máquinas kernel o los modelos basados en refuerzo y embolsado no tuvieron éxito en digerir los datos de entrenamiento más allá de un límite.