El aprendizaje por refuerzo (RL) se centra en escenarios en los que uno no tiene un modelo del entorno (es decir, un problema) a la mano, y el agente que emplea RL tiene que aprender a actuar mediante la interacción con el entorno a partir de los refuerzos. Esto se puede hacer estimando cómo funciona el entorno construyendo un modelo a partir de las muestras (basado en el modelo), o directamente (sin modelo) utilizando las muestras para actualizar una solución sobre cómo actuar.
Problemas de optimización combinatoria , para este tipo de problemas generalmente se necesita definir el problema que equivale a tener un modelo del problema (por lo tanto, el entorno), y no están necesariamente limitados por el número de muestras. De hecho, cuando hay un modelo disponible, tiene las probabilidades reales responsables de las transiciones y recompensas. La resolución se puede hacer a través de la programación dinámica, como la iteración de valor.
- ¿Cómo debo entrenar mi modelo de tren con un modelo de regresión?
- Dado el mismo tamaño de lote, ¿hay algún beneficio en transferir la capacitación CNN de una sola GPU a múltiples GPU (para un tamaño de lote de 128 en 4 GPU, cada GPU procesará 32 muestras)?
- ¿Cómo puede un joven de 16 años comenzar a aprender sobre el aprendizaje automático?
- ¿Dónde puedo encontrar conjuntos de datos para aprender autocorrección o corrección ortográfica?
- ¿Puedo hacer una competencia de kaggle con un archivo csv de entrenamiento de 0.5 Gb en mi computadora de 8 Gb y tener éxito?